利用Http Analyzer与RCurl抓取脚本中隐藏的数据

本文介绍了一种通过修改URL协议及利用特定脚本获取原本加密网页数据的方法,成功实现了对谷歌和腾讯财经中加密数据的抓取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载请注明出处啊喂!

http://write.blog.youkuaiyun.com/postedit/38684445


续上文【用HTTP analyzer找出网页脚本不可见的信息】http://blog.youkuaiyun.com/jansii/article/details/38123071


将xls中的"https://hq.sinajs.cn/?_=0.8689907682128251&list=gb_msft"

复制到浏览器地址栏,enter发现是打不开的,果然加密了。


今天研究腾讯财经中的恒生指数http://stock.qq.com/hkHSI

发现脚本中有以下部分


点进去一看⊙﹏⊙赫然就是恒生实时数据,当天时间对应恒生指数以及交易量。

一看URL,并没有https?

现在数据都不怎么需要加密吗?

于是受到启发,把前面谷歌数据网址的s去掉,在浏览器上尝试,可以了……

用R抓抓看


没什么问题!终于拿下!再用字符串处理一下即可。

注意到后面是goog,那换成别的行吗?查一下微软的编号是MSFT

改成MSFT,跑跑看


不错,甚满意~~


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值