python爬虫——urllib库

本文详细介绍了Python中urllib库的使用方法,包括urlopen、urlretrieve等函数的应用及Request类的进阶操作,帮助读者掌握网络请求的基本技能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

urllib库

urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。

urlopen函数

在Python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面。
urlopen函数有如下几点需要注意:

  • url:请求的url
  • data:请求的data,如果设置这个值,将会变成post请求。
  • 返回值:返回值是一个http.client.HTTPResponse对象,这个对象是一个类文件句柄对象。有read(size)、readline、readlines以及getcode等方法。

urlretrieve函数

这个函数可以方便的将网页上的一个文件保存到本地

urlencode函数

urlencode可以把字典数据转换为URL编码的数据

parse_qs函数

可以将经过编码后的url参数进行解码

urlsplit和urlparse

有时候拿到一个url,想要对这个url中的各个组成部分进行分割,那么这时候就可以使用urlparse或者是urlsplit来进行分割

request.Request类

如果想要在请求的时候增加一些请求头,那么就必须使用request.Request类来实现

实际操作代码

from urllib import request,parse

#urlopen函数基本操作
'''
url = 'http://www.baidu.com'
resp = request.urlopen( url )
print( resp.read() )
'''

#urlretrieve函数(保存数据到本地)
'''
request.urlretrieve( 'http://www.baidu.com/', 'baidu.html' )
'''

#urlencode函数(导入parse模块,url编码)
'''
data = { 'name':'张三' }
qs = parse.urlencode(data)
print( qs )
'''

#parse_qs函数(url解码)
'''
qs = 'name=%E5%BC%A0%E4%B8%89'
print( parse.parse_qs( qs ) )
'''

#urlparse函数和urlsplit函数(两个函数大致一样,urlparse函数比urlsplit函数多获取一个params属性,但此属性用的比较少)
'''
url = 'http://www.baisu.com/s;hello?username=phishing'
result = parse.urlparse( url )
print( 'scheme:', result.scheme )
print( 'netloc:', result.netloc )
print( 'path:', result.path )
print( 'query:', result.query )
print( 'params:', result.params )
'''

#Request函数(增加一些请求头)
'''
rs = request.Request(url,headers={
    'User-Agent', 'Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X) 
    AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25'
})
'''
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值