在图1所示的抽取过程中,包装器根据输入页面的类型从规则库中选择对应的抽取规则集并提供给规则执行模块。规则执行模块将此抽取规则应用到输入页面上,抽取出页面所包含的信息,并把该信息输入到信息转换模块。信息转换模块将被抽取出来的信息转换成特定的、能够被其他信息系统所识别的格式。
信息抽取的规则在包装器中占有重要地位,包装器依靠抽取规则从输入页面中提取信息。我们的归纳学习算法旨在生成高精度的抽取规则。