Java&python实现网页内容自动识别与提取技术实现

原创

于 2022-04-22 16:09:21 发布 · 4k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#爬虫 #架构 #网络爬虫 #java #big data

本文介绍了网页内容自动识别与提取技术，包括基于文本和符号密度的正文判断，以及结合OCR识别处理含图文的详情页。提到了GeneralNewsExtractor、WebCollector/ContentExtractor和HtmlSucker等工具在实际项目中的应用，并分享了如何构建服务总线以适应不同网站的正文抽取需求。

互联网数据采集的应用场景非常广泛，一般用于情报收集、舆情分析、竞争对手分析、学术研究、市场分析、用户口碑监测，在数据采集的过程中大多数网站都是以标题，时间，摘要，作者，来源，正文等形式展现，但是会遇到千千万万种不同结构的网页，开发者不可能对每种不同的网页格式逐一编写代码解析，那样的话，太耗时耗力了，而且维护起来也很不方便。

所以，我们会想到采用一种算法对90%以上的网页内容解析，能达到一劳永逸的效果。

这也是一个较高难度的技术实现方式。

在采集之前会对整个站点或采集目标做一个画像，这个画像是自动生成的，

画像主要提取这几个方面的特征：站点首页、站点栏目、列表页面、详情页面、URL特征。

今天先来说说对网页内容自动识别与提取的实现，对导航栏、列表页自动识别的实现将在其他文章内容中介绍。

识别详情页的正文内容主要是通过文章的标点符号和文章文本的蜜度，以及html < > 符号的蜜度，主要根据这3点进行判断正文的区域。

但是，遇到详情页面里面是图片，图片里面有文字，这张图片就是正文内容，那么就需要通过 OCR 文字识别以及<img>的标签判断，才能准确的识别。

正文抽取的解决方案主要思路：
1、对所有新闻网站的构建内容特征库。其实也很快，估计一个网站用时20分钟就可以了。200主流媒体，也花不了1天的时间，而且准确100%！
2、想研究一个放之四海而皆准的方案。参考知网一篇文章《基于文本及符号密度的网页正文提取方法》，以及一些相关机器学习等思路的算法。但是都会存在一些先天的痼疾。本项目也是如此。如果找一篇正文内容只有1行字，或者是图片多于文字的这种网页，准确率就下降了。

在“思通舆情”项目中实践的技术框架

1.GeneralNewsExtractor (Python)

传说中这个最准，号称100%。GNE在提取今日头条、新浪，腾讯新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。

开源项目地址：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。