数据分析平台

1. 爬虫程序

数据的定时获取是平台的基础:

  • 采用mysql存储原始数据
  • 采用ES作为数据查询的搜索引擎
  • 采用logstash将mysql数据迁移更新到ES中
  • 采用supervisor维护各项组件服务的执行
  • 采用cronsun维护数据分析服务的执行

1. 1 数据爬虫——>MySQL

从网上定时抓取数据后,进行一系列的字段解析处理,转为结构化的数据存入mysql数据库中。
项目:spider_by_realtime
依赖服务:

  • 民航:
  • 海关
# Linux--64版本
geckodriver 0.21.0  
Firefox 78.14.0esr
selenium==3.141.0
  • 招标
# Linux--64版本
# 品目分类模型
torch==1.4.0
# 标的关键内容实体识别  
tensorflow==1.12.2
# 供应商的实体识别
http://10.30.239.199:5004/
# Linux--64版本
chromedriver 
chrome
selenium==3.141.0 
  • 新冠
 #  socks
 https://blog.csdn.net/shlhhy/article/details/117926433
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值