信息抽取技术-百家争鸣

信息抽取技术-百家争鸣
                                   =============================================
                                                                       
--->  《网页信息自动抽取技术的研究》

摘要:在网络舆情分析中,经常要从大量的网页信息中抽取出有用的数据。但一般的网页信息抽取
技术都是基于对HTML文档的分析。本文提出网页信息自动抽取的方法,可以滤除网页噪声,快速准确地
获取所需要的网页信息。该方法首先将HTML转换为结构化的XML文档,然后结合DOM4J和XPath语言
建立网页解析模板库,最后根据模板的抽取规则对网页信息进行抽取。实验证明,该方法具有较高的回召
率和查准率。

网络作为巨大的数据源,如何从中提取m人们所关心的信息,滤除无用信息,是当今研究的热点。

目前,比较流行的抽取技术包括:基于隐马尔
科夫链理论的HMM(HIDDEN Markov Model)【l】,
基于ontologyl2I的信息抽取,基于RBFt3坤申经网络
和关联规则的Web文本分类规则获取方法和基于
数据挖掘MDR(Mining Data Records)141的算法。
以上算法都基于复杂的数学模型,实施起来比较
困难,信息抽取的效率和准确性也不尽如人意。

为最大程度地实现信息抽取的自动化,本文提出了
网络舆情分析中网页信息自动抽取的方法,主要
用于高效、精确地抽取并存储有用信息。目前,网
络舆情的主要来源有各大新闻网站、论坛和博客。
因此本文所采用的信息自动抽取技术也主要针对
这3类网页信息进行处理。
本文涉及的网页信息自动抽取技术包括URL
模板过滤网页、网页信息结构化、网页解析模板
匹配和数据库存储,其操作方便,切实可行。

网页信息自动抽取首先通过URL模板匹配过
滤出可以解析的网页,然后将可解析的HTML文
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值