Java&python实现网页内容自动识别与提取技术实现

本文介绍了网页内容自动识别与提取技术,包括基于文本和符号密度的正文判断,以及结合OCR识别处理含图文的详情页。提到了GeneralNewsExtractor、WebCollector/ContentExtractor和HtmlSucker等工具在实际项目中的应用,并分享了如何构建服务总线以适应不同网站的正文抽取需求。

互联网数据采集的应用场景非常广泛,一般用于 情报收集、舆情分析、竞争对手分析、学术研究、市场分析、用户口碑监测 ,在数据采集的过程中大多数网站都是以标题,时间,摘要,作者,来源,正文等形式展现,但是会遇到千千万万种不同结构的网页,开发者不可能对每种不同的网页格式逐一编写代码解析,那样的话,太耗时耗力了,而且维护起来也很不方便。

所以,我们会想到采用一种算法对90%以上的网页内容解析,能达到一劳永逸的效果。

这也是一个较高难度的技术实现方式。

在采集之前会对整个站点或采集目标做一个画像,这个画像是自动生成的,

画像主要提取这几个方面的特征:站点首页、站点栏目、列表页面、详情页面、URL特征。

今天先来说说对 网页内容自动识别与提取的实现,对导航栏、列表页自动识别的实现 将在其他文章内容中介绍。

识别详情页的正文内容 主要是通过文章的标点符号和文章文本的蜜度,以及html < > 符号的蜜度,主要根据这3点进行判断正文的区域。

但是,遇到详情页面里面是图片,图片里面有文字,这张图片就是正文内容,那么就需要通过 OCR 文字识别以及<img>的标签判断,才能准确的识别。

正文抽取的解决方案主要思路:
1、对所有新闻网站的构建内容特征库。其实也很快,估计一个网站用时20分钟就可以了。200主流媒体,也花不了1天的时间,而且准确100%!
2、想研究一个放之四海而皆准的方案。参考知网一篇文章《基于文本及符号密度的网页正文提取方法》,以及一些相关机器学习等思路的算法。但是都会存在一些先天的痼疾。本项目也是如此。如果找一篇正文内容只有1行字,或者是图片多于文字的这种网页,准确率就下降了。

在“思通舆情”项目中实践的技术框架

1.GeneralNewsExtractor (Python)

传说中这个最准,号称100%。GNE在提取今日头条、新浪,腾讯新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。

开源项目地址:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值