会写爬虫的大牛们真的了解urllib吗?

本文深入讲解Python的Urllib库,包括其四大模块的功能与用法,如urlopen发送请求、Request构建请求、Handler处理代理与Cookie,以及异常处理和URL解析。适合爬虫初学者学习。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

说起urllib,我想每个会写爬虫或者说听过爬虫的人都不陌生,它是爬虫的基本和常用库之一,我们今天就来从头到尾了解下。
一、什么是Urllib
1、Python的内置HTTP请求库,常用模块如下
(1)Urllib.request 请求模块(用来整理和发送请求)
(2)Urllib.error 异常处理模块
(3)Urllib.parse url解析模块
(4)Urllib.robotparser robots.txt解析模块
后面的内容我们再来详细介绍这几个模块的基本用法。
二、Python3相比Python2的变化
其实Python3中的urlopen这个函数方法在Python2中属于urllib2这个库,在Python3中移动到了urllib.request这个模块中,这是最明显的一个变化,还有其他变化,我们就不一一列举了。
三、常用模块的基本用法
1、Urlopen
(1)发送请求给服务器,第一个参数为网站的url,第二个参数为额外的数据,也就是post时候的数据,第三个参数超时的设置,具体看下面的示例:
在这里插入图片描述
(2)响应response
①响应类型
②状态码status获取
③响应头getHeaders获取
④Read方法,获取响应内容
2、Request:浏览器发送消息给网址所在的服务器
3、Handler
(1)代理:使用代理IP取代我们自己的IP,这样不断更换新的IP地址就可以达到快速爬取网页而降低被检测为机器人的目的
在这里插入图片描述
(2)Cookie:用来维持登陆状态的机制
在这里插入图片描述
在这里插入图片描述

4、异常处理
(1)请求不存在的网页会提示404
在这里插入图片描述
(2)先捕捉http的error,在捕捉异常原因

5、URL解析

(1)Urlparse:将url划分为六个标准的url结构
在这里插入图片描述
(2)Urlunparse:将url进行拼接
在这里插入图片描述
(3)Urljoin:用来拼接url的
在这里插入图片描述
(4)Urlencode:字典对象转换为get请求参数
在这里插入图片描述
好了,介绍到这里,我想大家也都了解的差不多了,可以具体到自己的电脑上去实践下。
毕竟实践才是检验真理的唯一标准。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

七月学长

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值