大数据开源舆情分析系统-数据采集技术架构浅析

原创

于 2022-03-06 23:18:26 发布 · 6.6k 阅读

·

18

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#big data #架构 #爬虫

本文探讨了舆情系统中数据采集面临的难题，如反爬策略、分布式爬虫管理、数据清洗等，以及如何通过低代码开发、分布式采集和智能抓取策略来提升效率和应对变化。

舆情系统中数据采集是一个关键部分，此部分核心技术虽然由爬虫技术框架构建，但抓取海量的互联网数据绝不是靠一两个爬虫程序能搞定，特别是抓取大量网站的情况下，每天有大量网站的状态和样式发生变化以后，爬虫程序能快速的反应和维护。

一旦分布式的爬虫规模大了以后会出现很多问题，都是种种技术挑战，会有很多门槛，例如：

1.检测出你是爬虫，拉黑你IP(人家究竟是通过你的ua、行为特则还是别的检测出你是爬虫的?你怎么规避?)

2人家给你返回脏数据，你怎么辨认?

3对方被你爬死，你怎么设计调度规则?

4要求你一天爬完10000w数据，你一台机器带宽有限，你如何用分布式的方式来提高效率?

5数据爬回来，要不要清洗?对方的脏数据会不会把原有的数据弄脏?

6对方的部分数据没有更新，这些未更新的你也要重新下载吗?怎么识别?怎么优化你的规则?

7数据太多，一个数据库放不下，要不要分库?

8对方数据是JavaScript渲染，那你怎么抓?要不要上PhantomJS?

9对方返回的数据是加密的，你怎么解密?

10对方有验证码，你怎么破解?

11对方有个APP，你怎么去得到人家的数据接口?

12数据爬回来，你怎么展示?怎么可视化?怎么利用?怎么发挥价值?

13等等...

在大规模互联网数据采集时，必须要构建一个完整的数据采集系统。否则，你的项目开发效率和数据采集效率会很低下。同时，还会很多让你意想不到的问题发生。

开源舆情系统

目录

开源舆情系统

在线体验系统

开源技术栈

数据处理流程

低代码开发

分布式采集

在线体验系统

环境地址：http://open-yuqing.stonedt.com/
用户名：13900000000
密码：stonedt

开源技术栈

开发平台：Java EE & SpringBoot
爬虫框架：Spider-flow & WebMagic & HttpClient
APP爬虫：Xposed框架
URL仓库：Redis
web应用服务器：Nginx&Tomcat
数据处理和储存任务发送：Kafka&Zookeeper
抓取任务发送：RabbitMQ
配置管理：MySQL
前端展示：Bootstrap & VUE

总体架构

（这是最早期系统架构图）

数据处理流程

（这是最早期系统设计图）

信源管理

信源，信息来源的简称。

我们需要对采集类型，内容，平台，地区等多种属性进行管理。我们对此开发了三代信源管理平台。

一代产品形态

二代产品形态

三代产品形态

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。