大数据开源舆情分析系统-数据采集技术架构浅析

本文探讨了舆情系统中数据采集面临的难题,如反爬策略、分布式爬虫管理、数据清洗等,以及如何通过低代码开发、分布式采集和智能抓取策略来提升效率和应对变化。

舆情系统 中数据采集是一个关键部分,此部分核心技术虽然由爬虫技术框架构建,但抓取海量的互联网数据绝不是靠一两个爬虫程序能搞定,特别是抓取大量网站的情况下,每天有大量网站的状态和样式发生变化以后,爬虫程序能快速的反应和维护。

一旦分布式的爬虫规模大了以后会出现很多问题,都是种种技术挑战,会有很多门槛,例如:

1.检测出你是爬虫,拉黑你IP(人家究竟是通过你的ua、行为特则还是别的检测出你是爬虫的?你怎么规避?)

2人家给你返回脏数据,你怎么辨认?

3对方被你爬死,你怎么设计调度规则?

4要求你一天爬完10000w数据,你一台机器带宽有限,你如何用分布式的方式来提高效率?

5数据爬回来,要不要清洗?对方的脏数据会不会把原有的数据弄脏?

6对方的部分数据没有更新,这些未更新的你也要重新下载吗?怎么识别?怎么优化你的规则?

7数据太多,一个数据库放不下,要不要分库?

8对方数据是JavaScript渲染,那你怎么抓?要不要上PhantomJS?

9对方返回的数据是加密的,你怎么解密?

10对方有验证码,你怎么破解?

11对方有个APP,你怎么去得到人家的数据接口?

12数据爬回来,你怎么展示?怎么可视化?怎么利用?怎么发挥价值?

13等等...

在大规模互联网数据采集时,必须要构建一个完整的数据采集系统。否则,你的项目开发效率和数据采集效率会很低下。同时,还会很多让你意想不到的问题发生。

开源舆情系统

目录

开源舆情系统

在线体验系统

开源技术栈

总体架构

数据处理流程

信源管理

站点画像

数据抓取

数据暂存

低代码开发

分布式采集

爬虫管理

采集分类

反爬策略

采集日志

数据解析


在线体验系统

开源技术栈

  • 开发平台:Java EE & SpringBoot
  • 爬虫框架:Spider-flow & WebMagic & HttpClient
  • APP爬虫:Xposed框架
  • URL仓库:Redis
  • web应用服务器:Nginx&Tomcat
  • 数据处理和储存任务发送:Kafka&Zookeeper
  • 抓取任务发送:RabbitMQ
  • 配置管理:MySQL
  • 前端展示:Bootstrap & VUE

总体架构

 (这是最早期系统架构图)

数据处理流程

 (这是最早期系统设计图)

信源管理

信源,信息来源的简称。

我们需要对采集 类型,内容,平台,地区 等多种属性进行管理。我们对此开发了三代信源管理平台。

一代产品形态

二代产品形态

三代产品形态

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值