互联网数据采集的应用场景非常广泛,一般用于 情报收集、舆情分析、竞争对手分析、学术研究、市场分析、用户口碑监测 ,在数据采集的过程中大多数网站都是以标题,时间,摘要,作者,来源,正文等形式展现,但是会遇到千千万万种不同结构的网页,开发者不可能对每种不同的网页格式逐一编写代码解析,那样的话,太耗时耗力了,而且维护起来也很不方便。
所以,我们会想到采用一种算法对90%以上的网页内容解析,能达到一劳永逸的效果。
这也是一个较高难度的技术实现方式。
在采集之前会对整个站点或采集目标做一个画像,这个画像是自动生成的,
画像主要提取这几个方面的特征:站点首页、站点栏目、列表页面、详情页面、URL特征。
今天先来说说对 网页内容自动识别与提取的实现,对导航栏、列表页自动识别的实现 将在其他文章内容中介绍。
识别详情页的正文内容 主要是通过文章的标点符号和文章文本的蜜度,以及html < > 符号的蜜度,主要根据这3点进行判断正文的区域。
但是,遇到详情页面里面是图片,图片里面有文字,这张图片就是正文内容,那么就需要通过 OCR 文字识别以及<img>的标签判断,才能准确的识别。
正文抽取的解决方案主要思路:
1、对所有新闻网站的构建内容特征库。其实也很快,估计一个网站用时20分钟就可以了。200主流媒体,也花不了1天的时间,而且准确100%!
2、想研究一个放之四海而皆准的方案。参考知网一篇文章《基于文本及符号密度的网页正文提取方法》,以及一些相关机器学习等思路的算法。但是都会存在一些先天的痼疾。本项目也是如此。如果找一篇正文内容只有1行字,或者是图片多于文字的这种网页,准确率就下降了。
在“思通舆情”项目中实践的技术框架
1.GeneralNewsExtractor (Python)
传说中这个最准,号称100%。GNE在提取今日头条、新浪,腾讯新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。
开源项目地址:

本文介绍了网页内容自动识别与提取技术,包括基于文本和符号密度的正文判断,以及结合OCR识别处理含图文的详情页。提到了GeneralNewsExtractor、WebCollector/ContentExtractor和HtmlSucker等工具在实际项目中的应用,并分享了如何构建服务总线以适应不同网站的正文抽取需求。
最低0.47元/天 解锁文章
121

被折叠的 条评论
为什么被折叠?



