一、背景
期货研究员做研究时,需要大量的数据支撑。这些数据来源都是各个行业网站,有些网站会提供连续的数据,能够很方便的导出使用,但是有些网站提供的数据不是连续性的,是通过日报或者文章每天定时公布当天的数据,此时就需要研究员每天固定时间点去网站摘录,而这些网站数量较多或者需要摘抄的指标较多时,就需要花费大量的时间精力。
这里我们采用“粒元数字员工”做了一个简单的自动化采集流程,每日定时采集数据,并且可以根据需要进行补充采集漏采的数据。
下面是执行效果:

二、流程梳理
- 按照指定网站打开网站,这里以进口棉价格为例,进口保价数据地址:https://www.cncotton.com/#/list?name=%E8%BF%9B%E5%8F%A3%E6%A3%89%E6%8A%A5%E4%BB%B7
- 判断当日数据是否有更新,有更新则点击进入当日数据详情,没有则结束流程,等待下次抓取
- 根据所需指标采集原始数据,这里采集国际棉花价格指数(SM)、国际棉花价格指数(M)、美国C/A棉、美国C/A棉、美国E/MOT棉、澳棉、巴西棉、乌兹别克斯坦棉、西非棉、印度棉、美国E/MOT M 1-3/32″级棉这几个指标
- 处理采集下来的数据
- 写入Excel保存
三、流程编辑
1、打开网站

2、判断最最新文章日期

3、网页原始数据抓取


4、数据处理,把所需的指标从原始数据里面提取出来,并规范化输出





5、数据写入Excel

四、补采流程
采集任务每日定时运行,数据有可能因为延迟公布、网络异常、系统运行异常等原因没有采集到,所以我们需要一个补充采集的流程,根据设置定的时间段,自动采集时间段所有的数据并输出存储到Excel。
1. 关键逻辑判断如下:

2. 需要补采时,在运行参数中“是否补采”设置为“是”,并设定补采时间段即可运行补采逻辑

五、总结
这种数据采集可以写python脚本抓取,但是如果网站出现变动或者增加指标时,需要调整修改脚本,而且还要部署环境,不便研究员操作。如果采用“粒元RPA”采集,通过拖拽操作即可完成采集配置,设置定时任务定期执行,即可满足需求。
目前研究员朋友试用之后表示,他负责的3个品种,42个网站的数据抓取,他配置了其中的10个,这10个原来每天需要花将近1个小时的时间,现在只用鼠标点点,检查下抓取下来的数据,大约3分钟不到。他已经开始给他同事推广了,太省事了~
此流程已上架有需要可领取试用,领取链接:https://www.cxplan.cn/sso/share-app/637813169683742720 。
本文介绍了一种期货研究员使用的自动化数据采集流程,通过粒元RPA实现网站数据的定时抓取和补采,显著减少了人工操作时间。以前每天1小时的工作现在只需3分钟,提升了研究员的工作效率并简化了维护过程。

被折叠的 条评论
为什么被折叠?



