python爬虫学习入门2 urllib伪装浏览器

该博客介绍了如何使用Python的urllib库,通过添加User-Agent头部信息来模仿浏览器进行网络请求,以避免被目标网站轻易识别。内容包括创建请求对象、设置headers以及发送伪装请求的步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

进阶操作2

通过添加头部信息User-agent 来模仿浏览器

===因为在正常的请求信息过程中,你的浏览器信息会随着请求一起发送到目标url 地址后台因此 如果想要不被那么轻易的发现要先学会伪装自己的请求
同样以urllib 库来进行演示

# 1. 首先确定要爬取的网址的url

url = "http://www.baidu.com"

# 2. 向服务器发送请求
	# 2.1 这里不同的一点是我们需要创建一个请求对象 在上一章中是没有创建请求对象的 这里使用urllib.request.Request() 的方法创建一个请求对象
	# 其中包含的参数有请求的url, header, data 等信息

# 3. 创建一个header
header = {
        # 浏览器的版本
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36"
}

# headers 传递伪装浏览器的信息
request = urllib.request.Request(url, headers=header)

# 传递headers之后我们就伪装成了一个版本为header的浏览器

# 然后再发送请求 传递参数 请求对象
response = urllib.request.urlopen(request)

# 最后对获取到的数据进行解析

data = response.read().decode('utf-8')


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值