”明月如霜,好风如水,清景无限 “
文远最近也算是爬虫入门吧,相信后面会慢慢熟悉。
壹
直接上例子,爬取药监局的数据。目的是得到每家公司的详情数据,例:
具体网址
这是主页,下面详情信息:
贰
分析,通过网页检查发现,主网页上没有公司相关数据,观察XHR中的Ajax请求发现,公司信息都是动态数据(方便更新),点击发现每个公司
的详情信息通过ID号这个参数区别,那么可以确定思路是先得到每个公司的ID号,然后在通过ID对应每一个详细网站,同样右键检查发现只有XHR中才有对应网页的内容,说明详情网页也是动态数据。
叁
来看具体代码:
import requests
import json
all_data_list=[]
id_list=[]
url='http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
headers={
'User=Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Safa