行业数据抓取 - 进口棉价格

本文介绍了一种期货研究员使用的自动化数据采集流程,通过粒元RPA实现网站数据的定时抓取和补采,显著减少了人工操作时间。以前每天1小时的工作现在只需3分钟,提升了研究员的工作效率并简化了维护过程。

一、背景

        期货研究员做研究时,需要大量的数据支撑。这些数据来源都是各个行业网站,有些网站会提供连续的数据,能够很方便的导出使用,但是有些网站提供的数据不是连续性的,是通过日报或者文章每天定时公布当天的数据,此时就需要研究员每天固定时间点去网站摘录,而这些网站数量较多或者需要摘抄的指标较多时,就需要花费大量的时间精力。

        这里我们采用“粒元数字员工”做了一个简单的自动化采集流程,每日定时采集数据,并且可以根据需要进行补充采集漏采的数据。

        下面是执行效果:

二、流程梳理

  1. 按照指定网站打开网站,这里以进口棉价格为例,进口保价数据地址:https://www.cncotton.com/#/list?name=%E8%BF%9B%E5%8F%A3%E6%A3%89%E6%8A%A5%E4%BB%B7
  2. 判断当日数据是否有更新,有更新则点击进入当日数据详情,没有则结束流程,等待下次抓取
  3. 根据所需指标采集原始数据,这里采集国际棉花价格指数(SM)、国际棉花价格指数(M)、美国C/A棉、美国C/A棉、美国E/MOT棉、澳棉、巴西棉、乌兹别克斯坦棉、西非棉、印度棉、美国E/MOT M 1-3/32″级棉这几个指标
  4. 处理采集下来的数据
  5. 写入Excel保存

三、流程编辑

        1、打开网站

        2、判断最最新文章日期

        3、网页原始数据抓取

        4、数据处理,把所需的指标从原始数据里面提取出来,并规范化输出

        5、数据写入Excel

四、补采流程

        采集任务每日定时运行,数据有可能因为延迟公布、网络异常、系统运行异常等原因没有采集到,所以我们需要一个补充采集的流程,根据设置定的时间段,自动采集时间段所有的数据并输出存储到Excel。

        1. 关键逻辑判断如下:

        2. 需要补采时,在运行参数中“是否补采”设置为“是”,并设定补采时间段即可运行补采逻辑

五、总结

        这种数据采集可以写python脚本抓取,但是如果网站出现变动或者增加指标时,需要调整修改脚本,而且还要部署环境,不便研究员操作。如果采用“粒元RPA”采集,通过拖拽操作即可完成采集配置,设置定时任务定期执行,即可满足需求。

        目前研究员朋友试用之后表示,他负责的3个品种,42个网站的数据抓取,他配置了其中的10个,这10个原来每天需要花将近1个小时的时间,现在只用鼠标点点,检查下抓取下来的数据,大约3分钟不到。他已经开始给他同事推广了,太省事了~

        此流程已上架有需要可领取试用,领取链接:https://www.cxplan.cn/sso/share-app/637813169683742720 。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值