R爬取新浪财经网的股票数据

本文介绍如何利用R的RCurl包抓取新浪财经网站上的股票历史交易数据。通过解析网页源代码,提取时间、开盘价、收盘价和最高价等关键信息,将数据组织成数据框。虽然此方法比专门的金融包如quantmod复杂,但有助于理解网页数据抓取。

使用到的包是RCurl,通过这个包可以做一些网页讯息的抓取

先通过新浪财经的入口,选一只感兴趣的股票,再点击左边行情走势下的历史交易得到历史交易数据


常用的浏览器可以打开网页讯息的源代码:


首先读取包并用,读取该网址的信息,并按行对信息进行切割:

library(RCurl)
temp<-getURL(url)
k=strsplit(temp,"\r\n")[[1]]

可以看到相关的源代码信息,在每一个周期内都有一个<a target='_blank' 格式的脚本,可以以此为匹配的原则用grep函数提取相关的信息,并且在读取该行发现,该行的下行有直接出现日期信息,可以在出现的列表中的采用+1直接读取下一行的时间信息:

date<-k[grep("<a target='_blank'",k)+1]


会读取到类似这样格式的有关时间讯息,接着对时间讯息进行切割,\t占用了一个位置,由此可以数的关于时间开始使是由第4位到第13位

date<-substring(date,4,13)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值