您的位置:技术工种之机修知识网 机械修理知识 正文
原作者:[标签:作者] 添加时间:2007-06-28 原文发表:2007-06-28 人气:1

本文章共1895字,分2页,当前第1页,快速翻页:
 

摘 要:在分析基于标志和基于文本模式两类算法的基础上,提出了一种新的包装器归纳学习算法。新算法综合上述两类算法的优点,不但能利用页面的标志信息进行信息定位,而且能利用文本的模式信息来进行信息抽取和对抽取结果进行必要的过滤。实验结果表明,新算法具有较高的信息抽取精度与信息表达能力。

关键词:信息抽取 包装器 标志 文本模式 归纳学习

0 引言

自动文本信息抽取是文本信息处理的一个重要环节 。信息抽取是指从文本中自动抽取相关的或特定类型的信息。目前信息抽取模型主要有三种:基于词典的抽取模型_] J、基于隐马尔可夫模型(ttidden Markov Model,HMM)的抽取模型 和基于规则的抽取模型-9 。

基于词典的文本信息抽取模型需要首先构造抽取模式词典,然后使用该模式词典从未标记文本中抽取所需信息。文献[3]提出了一种从训练示例中学习的方法来自动构建模式词典;文献[4]应用多级自举算法生成语义和抽取模式词典。上述基于词典的模型需要大量的手工操作与很强的专业知识背景,因此不适宜海量Web文本信息的处理。为了克服手工操作和知识背景的缺陷,隐马尔可夫模型(HMM)被应用于信息抽取。文献[5]利用学习到的HMM来抽取计算机科学研究论文的标题、作者和摘要等头部信息;文献[6]结合HMM和最大熵原理,提出了一种最大熵隐马尔可夫模型;文献[7]利用文本排版格式、分隔符等信息对文本进行分块,在分块的基础上建立隐马尔可夫模型来进行文本信息抽取。上述基于HMM的模型由于要考虑整个文本,因此不适合含有较多无关标记(Token)的Web文本的处理,因为大量无关Token将造成HMM节点过多,使训练开销增大,HMM建模的有效性降低。包装器是一种基于规则的文本信息抽取模型,是信息引擎 的重要组件,能从各种页面中抽取相关的信息。包装器的规则集易于建立,抽取精度高,因此适合于含有较多半结构化信息的Web页面处理。文献[9]将归纳学习方法引入包装器的自动生成,并基于归纳学习方法给出了六个包装器类。但因其只考虑了与待抽取数据紧相邻的分隔符,因此不能包装某些属性值缺失或信息项次序不固定的资源。文献[1O]基于非确定有限状态机提出了两类抽取器:单通道和多通道抽取器。其规则语言允许使用语义类和析取项,所以能够包装属性值缺失或信息项次序多变的信息。但其主要不足是无法使用未紧随抽取项之后或之前的分隔符,因而抽取精度不高。文献[11]对文献[9,10]进行了改进,它首先将页面的层次结构表示成一个内嵌目录树,并为树中的每个叶子节点生成一条规则;然后再为每个内部列表节点生成一条额外的迭代规则,因此能够包装具有任意层嵌套结构的信息源。由于它在规则产生时不但考虑了与抽取信息相邻的分隔符,而且还考虑了与抽取信息不相邻但具有明显标志的分隔符,因此其表达能力高于文献[9,1O]中的算法。上述几种归纳学习算法均基于页面的标志信息,因此对标志不明显或者标志缺失的信息,均无法正常处理。文献[12]从另一个角度出发,通过学习数据的自身结构来归纳数据的文本模式信息。这些模式信息不但能进行信息抽取,而且能实现包装器的平衡。因其不考虑页面的标志信息,因此不受页面布局的影响。但该算法的缺点是对于页面上的信息难于定位,模式过于抽象时抽取精度较低,模式过于具体时抽取的召回率较低。

为了改善上述基于包装器模型的信息抽取的精度与召回率,并提高其表达能力,本文提出了一种新的包装器归纳学习算法。该算法综合利用页面的标志信息及文本模式信息的优点,首先基于页面的标志信息进行信息定位,然后利用学习到的模式信息进行wBb文本信息的抽取与过滤。实验结果表明,新包装器模型具有较高的抽取精度与信息表达能力。

1 包装器模型

包装器是一种软件构件,负责将数据和查询请求由一种模式转换成另一种模式。因此,一个包装器实际上可看作是一类页面到该页面所含元组集合的函数。在www信息应用中,包装器是一个软件过程,应用已经定义好的信息抽取规则,将展现在输入Web页面中的信息数据抽取出来,转换成用特定的格式描述的信息,提供给其他信息系统作进一步的处理。包装器一般包括三个部分:规则库、规则执行模块和信息转换模块。应用包装器的抽取过程如图1所示。
 
本页地址

相关文章

PLC在粮食包装机控制系统中的应用(上)
瓦楞机:影响纸板质量的核心因素之八
塑料表面电晕处理设备的测试及其应用(一)
塑料表面电晕处理设备的测试及其应用(二)
浅谈机械产品的造型设计
HOLLiAS-LEC G3 PLC对自动包装机的控制(二)
啤酒灌装、压盖机PLC控制系统(一)
啤酒灌装、压盖机PLC控制系统(二)
如何选购通用塑料测试机器(一)
注塑机节能改造浅析
基于包装器模型的文本信息抽取(二)
基于虚拟装配的硬币自动包装机设计方法(上)
基于包装器模型的文本信息抽取(三)
关于挤出机吹塑时突然挤不出的问题解答
采用夹扣式瓶塞的“啤酒”装瓶生产线(下)
采用夹扣式瓶塞的“啤酒”装瓶生产线(上)
胶塞清洗机的设计结构和清洗工艺(一)
胶塞清洗机的设计结构和清洗工艺(二)
交流变频调速技术在货架冷弯设备中的应用(上
ACOPOS在热收缩薄膜包装机的应用(下)

相关评论


本文章所属分类:首页 机械修理知识