python-Requests库学习笔记(三)

本文详细介绍了爬虫技术中常见的伪装技巧,包括如何修改User-Agent进行请求头伪装,使用代理IP提高爬取效率,以及如何随机更换代理IP保证稳定访问。掌握这些技巧,将大大提升你的爬虫开发能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

各个网站都有过滤爬虫的机制,因此,爬虫的伪装就很有必要


查看请求头

r = requests.get('https://www.***.com/get')
r.headers

就会看到本机发送的数据,而要修改主要是user-agent


请求头伪装

主要是在User-Agent处进行修改,主要作用就是伪装成浏览器进行访问。

header = {'User-Agent':'Mozilla/5.0'}
r = requests.get('https://www.***.com/get',headers = headers)

便可以更改请求头user-agent参数,从而伪装成浏览器。
相同的方法可以添加cookie,data其他数据


IP代理

同一个ip访问服务器的速度过快,也有可能被服务器禁止,因此访问时不断使用代理ip更改自己的ip很有必要,这样能提高爬虫的效率

proxies = {'http':'http://xxx.xxx.xxx.xxx:xxxx'}
r = requests.get('http://www.***.com/get',headers = headers,proxies = proxies)

一定要写http协议还是https协议,以字典的方式:‘协议’:‘ip:端口’
除此之外,我们还可以设置多个代理ip,以随机方式,每次发送请求就更改一次,以保证效率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值