python爬虫——urllib库_在python爬虫中,下面哪个库可以帮助我们自动化模拟浏览器行为-优快云博客

本文链接：https://blog.youkuaiyun.com/a152115/article/details/81353004

本文详细介绍了Python中urllib库的使用方法，包括urlopen、urlretrieve等函数的应用及Request类的进阶操作，帮助读者掌握网络请求的基本技能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

urllib库

urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为，向指定的服务器发送一个请求，并可以保存服务器返回的数据。

urlopen函数

在Python3的urllib库中，所有和网络请求相关的方法，都被集到urllib.request模块下面。
urlopen函数有如下几点需要注意：

url：请求的url
data：请求的data，如果设置这个值，将会变成post请求。
返回值：返回值是一个http.client.HTTPResponse对象，这个对象是一个类文件句柄对象。有read(size)、readline、readlines以及getcode等方法。

urlretrieve函数

这个函数可以方便的将网页上的一个文件保存到本地

urlencode函数

urlencode可以把字典数据转换为URL编码的数据

parse_qs函数

可以将经过编码后的url参数进行解码

urlsplit和urlparse

有时候拿到一个url，想要对这个url中的各个组成部分进行分割，那么这时候就可以使用urlparse或者是urlsplit来进行分割

request.Request类

如果想要在请求的时候增加一些请求头，那么就必须使用request.Request类来实现

实际操作代码

from urllib import request,parse

#urlopen函数基本操作
'''
url = 'http://www.baidu.com'
resp = request.urlopen( url )
print( resp.read() )
'''

#urlretrieve函数(保存数据到本地)
'''
request.urlretrieve( 'http://www.baidu.com/', 'baidu.html' )
'''

#urlencode函数(导入parse模块，url编码)
'''
data = { 'name':'张三' }
qs = parse.urlencode(data)
print( qs )
'''

#parse_qs函数（url解码）
'''
qs = 'name=%E5%BC%A0%E4%B8%89'
print( parse.parse_qs( qs ) )
'''

#urlparse函数和urlsplit函数（两个函数大致一样，urlparse函数比urlsplit函数多获取一个params属性，但此属性用的比较少）
'''
url = 'http://www.baisu.com/s;hello?username=phishing'
result = parse.urlparse( url )
print( 'scheme:', result.scheme )
print( 'netloc:', result.netloc )
print( 'path:', result.path )
print( 'query:', result.query )
print( 'params:', result.params )
'''

#Request函数（增加一些请求头）
'''
rs = request.Request(url,headers={
    'User-Agent', 'Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) 
    AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25'
})
'''