最近要把很多数据抓下来先存起来,现有历史数据再说。其中,东方财富网有许多数据,其中有一个是机构调研的数据。
http://data.eastmoney.com/jgdy/tj.html
我们希望抓取的是js生成的表格。
这种带有js的网站抓取其实不是那么简单的,基本分为那么几种方法,一种是观察页面,有的会有json数据,有的有js代码可以解析目标的url;一种是使用渲染工具;还有一种就是用工具来点击相关button,来抓取url,进而进一步分析。
今天我们使用的是第三种。
我们希望爬取的是表格中的数据,但是如果我们仔细看一下html代码,会发现,这其实是js生成的,下面这张图是源代码的截图。
这就很尴尬了,怎么办呢?我们自己自己解析url数据访问你的api好了。
<
本文介绍了如何绕过JS抓取东方财富网机构调研数据。通过观察网络请求,找到JS生成表格的API规律,通过改变URL中的page参数获取不同页码的数据。利用urllib等工具可以直接访问这些API获取JSON内容。
最低0.47元/天 解锁文章
186





