信息抽取技术－百家争鸣

最新推荐文章于 2025-10-11 19:47:22 发布

原创最新推荐文章于 2025-10-11 19:47:22 发布 · 1.3k 阅读

1 ·

CC 4.0 BY-SA版权

规则引擎信息抽取专栏收录该内容

4 篇文章

订阅专栏

信息抽取技术－百家争鸣

=============================================

---> 《网页信息自动抽取技术的研究》

摘要：在网络舆情分析中，经常要从大量的网页信息中抽取出有用的数据。但一般的网页信息抽取

技术都是基于对HTML文档的分析。本文提出网页信息自动抽取的方法，可以滤除网页噪声，快速准确地

获取所需要的网页信息。该方法首先将HTML转换为结构化的XML文档，然后结合DOM4J和XPath语言

建立网页解析模板库，最后根据模板的抽取规则对网页信息进行抽取。实验证明，该方法具有较高的回召

率和查准率。

网络作为巨大的数据源，如何从中提取m人们所关心的信息，滤除无用信息，是当今研究的热点。

目前，比较流行的抽取技术包括：基于隐马尔

科夫链理论的HMM(HIDDEN Markov Model)【l】，

基于ontologyl2I的信息抽取，基于RBFt3坤申经网络

和关联规则的Web文本分类规则获取方法和基于

数据挖掘MDR(Mining Data Records)141的算法。

以上算法都基于复杂的数学模型，实施起来比较

困难，信息抽取的效率和准确性也不尽如人意。

为最大程度地实现信息抽取的自动化，本文提出了

网络舆情分析中网页信息自动抽取的方法，主要

用于高效、精确地抽取并存储有用信息。目前，网

络舆情的主要来源有各大新闻网站、论坛和博客。

因此本文所采用的信息自动抽取技术也主要针对

这3类网页信息进行处理。

本文涉及的网页信息自动抽取技术包括URL

模板过滤网页、网页信息结构化、网页解析模板

匹配和数据库存储，其操作方便，切实可行。

网页信息自动抽取首先通过URL模板匹配过

滤出可以解析的网页，然后将可解析的HTML文

档进行网页结构化处理，生成XML文档。最后结

合DOM4J和XPath语言建立页面解析模板，从

XML文档中抽取指定节点信息，并将其存储进入

数据库。

经研究，HTML网页均可转换为XML文档，

经过转化后，可以清晰地查看到网页节点信息，从

而能很方便地定位并抽取这些信息。

---> 《Web 信息抽取技术综述》

信息抽取起源于文本理解。从自然文本中获取结构化信息的研究最早开始于 20 世纪 60 年代中期，这被看做是信息抽取技术的初始研究，它以两个长期的、研究性的自然语言处理项目为代表，并一直持续到 80 年代［4 ］。近几年，信息抽取技术的研究与应用更为活跃。在研究方面，主要侧重于以下几方面：利用机器学习技术增强系统的可移植能力；探索深层理解技术；篇章分析技术；多语言文本处理能力；Web 信息抽取以及对时间信息的处理等。

Web 信息抽取不同于对普通文本的抽取，这是由于网页本身在某种程度上具有一定的结构。大多数网页整体上都遵从 W3C 制定的 DOM 树型结构标准，从而降低了 Web 信息抽取工作的难度。这种结构化的形式在简化抽取的同时也带来了一定的缺点。在网页中，数据通常会被标签所分割，一个完整的句子中往往穿插着对句子本身不起任何作用的标签，从而元法表达句子原始的意义，这就使得传统的基于自然语言处理的文本信息抽取技术无法直接移植到 Web 信息抽取领域。本文将分别论述上述几类技术近几年来的研究进展，并着重探讨基于 DOM 树结构和基于模板的抽取技术，同时对比了几类技术的优缺点。

1. 3 基于 DOM 树结构的技术

构成网页的 HTML 的标签具有可嵌套性，不同于普通元结构的文本，一个网页中所有标签组成的 DOM 模型通常呈现树状结构。在Web 信息抽取中可以在网页默认的树结构的基础上通过一些常见的针对树的操作，从而总结归纳出待抽取部分的特征。基于DOM 树结构的技术克服了对网页数据源的限制，可以用来处理各种类型的单正文体和多正文体页面，其操作过程相对于基于视觉的方法更加易于实现。在基于DOM 树结构的抽取技术领域有许多成型的系统和经典算法，使其成为 Web 信息抽取技术中发展极为迅速的一个分支。

Web 信息抽取技术对比

1）自动化程度基于统计原理的技术和基于视觉特征的技术在多数情况

下都涉及到对待抽取页面本身进行区域划分等处理，需要对页面进行人工干预，因此操作人员的主观行为可能会造成区域划分不合理从而直接影响信息抽取的效果。基于模板的技术需要依赖于表示待抽取位置的节点串，通常需要针对某一类待抽取页面进行分析和标记，总结出一个统一的模板节点串。尽管利用模板来抽取信息较为便捷，但生成模板的过程却需要大量的人工操作。基于DOM 树结构的技术针对网页本身的结构优势，通过对网页树进行对比操作就可以确定页面内主题信息的位置进而实现信息的抽取，极少受到操作者主观因素的影响。

2 ）适用范围基于统计原理的技术适用于以文字为主题并且文字部分

相对于其他部分来讲具有明显数量优势的一类页面，针对不同的页面要应用不同的阂值。基于视觉特征的技术过多地依赖页面的组织结构，因此比较适用于结构清晰、符合一般设计规则并且没有过多标签错误的页面。基于DOM 树的技术对网页的类型没有限制，对于出自同一个网站并且具有相似结构的页面都能进行处理。基于模板的技术适用于相似度较大的页面，如通过动态查询数据库生成的页面，并且只能针对单正文体网页。

3 ）复杂性

基于统计原理的技术在理论上易于实现，但其难点在于确定个合理的阂值。阂值的确定方法会对主题区域的确定产

生直接的影响，并且对于不同种类的页面必须分别讨论阔值。基于视觉特征的技术对网页的分块更加注重可视化信息的组织形式，比单纯考虑网页标签嵌套结构的方法更合理，但网页本身的一些标签错误、结构不规范以及数据分块与视觉效果分块的不统一等多种因素使得这种技术的实现过程非常繁琐。基于 DOM 树结构的技术不需要再对待抽取页面进行分块处

理，可以直接通过对比得出页面的主题信息区域，但却需要对每个页面都进行同样的处理，没有充分利用己有的结果总结出针对同类相似页面进行处理的统一方法。基于模板的技术免去了对同类网页的重复操作，针对相似页面总结出统的抽取模板，但在模板的生成方法和模板通用性方面还有待于改善。

结束语

Web 信息抽取是网络信息挖掘和信息检索的一个非常重要的前处理步骤，在实际的工程项目和信息获取中也存在着明确的需求。本文详细探讨了基于统计理论的、基于视觉特征的、基于 DOM 树结构的和基于模板的几类常用的 Web 信息抽取技术及其发展现状。几类技术各有其优缺点，在实际应用中，只有将几类技术结合起来，取长补短，才能更准确地在页面中抽取所需要的内容。

－－－> 《信息抽取研究综述》

摘要：信息抽取研究旨在为人们提供更有力的信息获取工具，以应对信息爆炸带来的严重挑战。与信息检索不同，信息抽取直接从自然语言文本中抽取事实信息。过去十多年来，信息抽取逐步发展成为自然语言处理领域的一个重要分支，其独特的发展轨迹--通过系统化、大规模地定量评测推动研究向前发展，以及某些成功启示，如部分分析技术的有效性、快速 NLP 系统开发的必要性，都极大地推动了自然语言处理研究的发展，促进了 NLP 研究与应用的紧密结合。回顾信息抽取研究的历史，总结信息抽取研究的现状，将有助于这方面研究工作向前发展。

信息抽取系统的主要功能是从文本中抽取出特定的事实信息（factual information）。比如，从新闻报道中抽取出恐怖事件的详细情况：时间、地点、作案者、受害者、袭击目标、使用的武器等；从经济新闻中抽取出公司发布新产品的情况：公司名、产品名、发布时间、产品性能等；从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等等。通常，被抽取出来的信息以结构化的形式描述，可以直接存入数据库中，供用户查询以及进一步分析利用。

随着计算机的普及以及互联网（WWW）的迅猛发展，大量的信息以电子文档的形式出现在人们面前。为了应对信息爆炸带来的严重挑战，迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取（Information Extraction）研究正是在这种背景下产生的。

与信息抽取密切相关的一项研究是信息检索，但信息抽取与信息检索存在差异，主要表现在三个方面：

① 功能不同。信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表；而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。

② 处理技术不同。信息检索系统通常利用统计及关键词匹配等技术，把文本看成词的集合（bags of words），不需要对文本进行深入分析理解；而信息抽取往往要借助自然语言处理技术，通过对文本中的句子以及篇章进行分析处理后才能完成。

③ 适用领域不同。由于采用的技术不同，信息检索系统通常是领域无关的，而信息抽取系统则是领域相关的，只能抽取系统预先设定好的有限种类的事实信息。

另一方面，信息检索与信息抽取又是互补的。为了处理海量文本，信息抽取系统通常以信息检索系统（如文本过滤）的输出作为输入；而信息抽取技术又可以用来提高信息检索系统的性能。二者的结合能够更好地服务于用户的信息处理需求。

信息抽取虽然需要对文本进行一定程度的理解，但与真正的文本理解（Text Understanding）还是不同的。在信息抽取中，用户一般只关心有限的感兴趣的事实信息，而不关心文本意义的细微差别以及作者的写作意图等深层理解问题[1]。因此，信息抽取只能算是一种浅层的或者说简化的文本理解技术。

一般来说，信息抽取系统的处理对象是自然语言文本尤其是非结构化文本。但广义上讲，除了电子文本以外，信息抽取系统的处理对象还可以是语音、图像、视频等其他媒体类型的数据。在这里，我们只讨论狭义上的信息抽取研究，即针对自然语言文本的信息抽取。

=============================================

－－－《基于Web的信息抽取技术研究》

Web信息抽取技术有很强的实用性，可把该技术看作构建其他应用系统

的基础，其重要性可归纳如下：

1)从数据挖掘的观点看，Web信息抽取是Web数据挖掘的重要组成部分。

Web挖掘主要分为三类：Web结构挖掘(主要为超链接的分析)、Web

使用记录挖掘(日志挖掘)、Web内容挖掘。Web信息抽取是Web内容

挖掘的重要基础技术，特别是Web文档的分类、聚类都可以受益于该

技术。

2)从信息集成的观点看，Web信息抽取是信息集成首先要解决的关键技

术之一。信息集成首先要从多个不同的数据源抽取数据，其次才能集

成这些抽取的异质数据，在这些不同的数据源中，Web信息源当然是

非常重要的来源。

3)此外，一些新颖的实际应用也必须利用Web信息抽取技术。例如：

>网上比较购物系统：利用Web信息抽取技术抽取多个不同的电子

商务网站的商品信息，对产品价格等信息作比较后推荐给用户。

>构建企业竞争情报系统：利用Web信息抽取技术到同行业竞争对

手的网站上抽取相关信息和追踪行业动态。

>提供个性化的主动信息推送服务：在目标网站抽取用户感兴趣的

信息，定期主动推送给用户。

>除此之外，还有在诸如Web新闻页自动文摘系统和主题搜索引擎

中，都需要用到Web信息抽取技术。

利用正则表达式进行信息抽取的好处是对已知特征的信息抽取具有非常

高的准确性，同时目前的主流编程语言都实现了正则表达式的引擎，对正则

表达式提供了强有力的支持，有利于编程实现包装器、构建Web信息抽取系

统。其缺点是对未知特征的信息抽取无能为力。因为没有特征，就无从编写

正则表达式，另一个缺点是编写复杂的正则表达式需要高超的技巧，对编写

者的水平要求较高，因为正则表达式设计的好坏直接影响字符串的模式匹配

的准确性，也直接关系到正则表达式引擎的运行时间的长短。

互联网上存在大量的有价值信息，这些信息存储于各个网站的服务器中，

以网页的形式展现给用户。目前，随着各种Web开发技术的应用和各种协助

人们管理网站和制作网页的工具的普及应用，现在的网页，特别是富含信息

的网页越来越具有如下特点：

1．网站的某类型网页通常具有统一的风格，在制作这些网页的时候通常

采用相同的模板，其表现形式为网页的各部分具有相对固定的布局，如网页

的最上面部分往往是网站的名称及logo图片以及导航栏，网页的最下面为版

权信息，左或右侧栏是相关连接或广告信息，网页的中间部分是主体信息，

信息抽取也主要是针对这部分。

2．网页中的主体信息往往具有局部信息块代码结构的重复性，如图3-1

所示。这主要是由于目前很多有价值的信息是以Web数据库的形式存储在网

站服务器中，当用户在前端进行表单查询或点击分类导航链接后，服务器会

在后端对数据库进行查询然后按统一的代码结构生成返回页面。

针对目前网页的这种新特点，特别是Web信息抽取的重要来源--电子

商务类网站通常都含有大量具有上述特点的网页，因此有必要对这种数据密

集型网页的Web信息抽取进行研究

=============================================

《网页解析nekohtml参考实例》 http://blog.itpub.net/183473/viewspace-421571/

使用nekohtml+xerces，xerces实际上也是一个XML的解析包，nekohtml建筑在其之上，两者搭配后可将网页解析成一颗DOM树，这样我们对于网页的操作就转化为对这棵树的操作了，而这正是它和HTML Parser的不同之处，也是我喜欢它的原因。

我们对网页的操作主要通过org.w3c.dom中提供的接口（nekohtml+xerces提供这些接口的实现），熟悉XML解析的朋友对这个包一定不会陌生。这个包中用的比较多的接口有：Node、Document、Element、Text等。Node是DOM树中所有节点根接口，它的子接口有Document、ProcessingInstruction、Element、Comment、Text等，具体的继承层次请参考java doc。正如这些接口的名字说显示的，它们对应于DOM树中相应的元素，这里我就不细说了，下面我们通过一个例子来说明它们的使用方法。

从网页中抽取文本是一项很平常的工作，HTML Parser中提供了一个TextExtractingVisitor来实现这一点，但nekohtml没有现成这样的类，我们自己写一个也挺快。