我们目前开源的 舆情系统 分为3个部分,整个系统使用了多种开源技术组件和开源框架,涵盖涉及技术领域广泛,例如:分布式计算、大数据、人工智能、数据中台、数据挖掘、深度学习、java和python的大量实际开发场景案例。
所谓,取之于开源,用之于开源,我们把整套系统开源出去,回馈给技术社区。同时,我们也会逐步的讲解,在这个开源 舆情系统 中我们是如何使用这些技术的,以及在使用中遇到的各种问题和工程师们的解决方案。
数据采集
- 开发平台:Java EE & SpringBoot
- 爬虫框架:Spider-flow & WebMagic & HttpClient
- APP爬虫:Xposed框架
- URL仓库:Redis
- 网页渲染解析:Jvppeteer & Playwright(微软开源)
- web应用服务器:Nginx & Tomcat
- 储存任务发送:Kafka & Zookeeper
- 抓取任务发送:RabbitMQ
- 配置管理:MySQL
- 前端展示:Bootstrap & VUE
数据处理
- 开发框架:SpringBoot
- 开发语言:Java JEE
- 数据暂存:MySQL
- 数据索引:Redis
- 深度学习:PaddlePaddle
- 自然语言处理:HaNLP & THUCTC
- 数据处

该开源舆情系统基于JavaEE和SpringBoot,利用Spider-flow、WebMagic等爬虫框架进行数据采集,并借助Redis、Nginx、Kafka等组件进行数据处理和存储。系统集成了PaddlePaddle进行深度学习,HaNLP和THUCTC进行自然语言处理,Elasticsearch用于数据检索,Clickhouse进行相似度计算。此外,还提供了数据中台、数据初始化、图表展示等功能,整体系统回馈给了技术社区。
最低0.47元/天 解锁文章
257

被折叠的 条评论
为什么被折叠?



