信息抽取技术-百家争鸣
=============================================
---> 《网页信息自动抽取技术的研究》
摘要:在网络舆情分析中,经常要从大量的网页信息中抽取出有用的数据。但一般的网页信息抽取
技术都是基于对HTML文档的分析。本文提出网页信息自动抽取的方法,可以滤除网页噪声,快速准确地
获取所需要的网页信息。该方法首先将HTML转换为结构化的XML文档,然后结合DOM4J和XPath语言
建立网页解析模板库,最后根据模板的抽取规则对网页信息进行抽取。实验证明,该方法具有较高的回召
率和查准率。
网络作为巨大的数据源,如何从中提取m人们所关心的信息,滤除无用信息,是当今研究的热点。
目前,比较流行的抽取技术包括:基于隐马尔
科夫链理论的HMM(HIDDEN Markov Model)【l】,
基于ontologyl2I的信息抽取,基于RBFt3坤申经网络
和关联规则的Web文本分类规则获取方法和基于
数据挖掘MDR(Mining Data Records)141的算法。
以上算法都基于复杂的数学模型,实施起来比较
困难,信息抽取的效率和准确性也不尽如人意。
为最大程度地实现信息抽取的自动化,本文提出了
网络舆情分析中网页信息自动抽取的方法,主要
用于高效、精确地抽取并存储有用信息。目前,网
络舆情的主要来源有各大新闻网站、论坛和博客。
因此本文所采用的信息自动抽取技术也主要针对
这3类网页信息进行处理。
本文涉及的网页信息自动抽取技术包括URL
模板过滤网页、网页信息结构化、网页解析模板
匹配和数据库存储,其操作方便,切实可行。
网页信息自动抽取首先通过URL模板匹配过
滤出可以解析的网页,然后将可解析的HTML文