爬虫小例--爬药监局(上)

本文介绍了使用Python进行爬虫的实践,以爬取药监局数据为例。分析网页发现公司信息为动态数据,确定先获取公司ID号,再通过ID获取详细信息的思路。还提到换页问题及页面过大获取ID报错可能是反爬机制,最后进行持久化存储。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

”明月如霜,好风如水,清景无限 “

文远最近也算是爬虫入门吧,相信后面会慢慢熟悉。

直接上例子,爬取药监局的数据。目的是得到每家公司的详情数据,例:
具体网址
在这里插入图片描述
这是主页,下面详情信息:
在这里插入图片描述

分析,通过网页检查发现,主网页上没有公司相关数据,观察XHR中的Ajax请求发现,公司信息都是动态数据(方便更新),点击发现每个公司
的详情信息通过ID号这个参数区别,那么可以确定思路是先得到每个公司的ID号,然后在通过ID对应每一个详细网站,同样右键检查发现只有XHR中才有对应网页的内容,说明详情网页也是动态数据。

来看具体代码:

import requests
import json
​
all_data_list=[]
id_list=[]
url='http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
​
headers={
   
    'User=Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Safa
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值