Python爬虫之urlib.parse

1.urlencode()

这里我们介绍一个常用的方法——urlencode(),它在构造GET请求参数的时候非常有用,示例如下:

import urllib.parse
dict = {
    'wd':'周杰伦'
}
base_url = "http://www.baidu.com/s?"
url = base_url + urllib.parse.urlencode(dict)
print(url)

这里首先声明了一个字典来将参数表示出来,然后调用urlencode()方法将其序列化为GET请求参数。

运行结果如下:

http://www.baidu.com/s?wd=%E5%91%A8%E6%9D%B0%E4%BC%A6

可以看到,参数就成功地由字典类型转化为GET请求参数了。

这个方法非常常用。有时为了更加方便地构造参数,我们会事先用字典来表示。要转化为URL的参数时,只需要调用该方法即可。

2.parse_qs()和parse_qsl()

有了序列化,必然就有反序列化。
利用parse_qs()方法,可以将它转回字典
利用parse_qsl()方法,可以将它转化为元组组成的列表
示例如下:

import urllib.parse
str = 'wd=%E5%91%A8%E6%9D%B0%E4%BC%A6'
qs = urllib.parse.parse_qs(str)
qsl = urllib.parse.parse_qsl(str)
print(qs)
print(qsl)

运行结果如下:

{'wd': ['周杰伦']}
[('wd', '周杰伦')]

3.quote()和unquote()

quote()方法可以将内容转化为URL编码的格式。URL中带有中文参数时,有时可能会导致乱码的问题,此时用这个方法可以将中文字符转化为URL编码.
unquote()方法可以进行URL解码。
示例如下:

import urllib.parse
quote = urllib.parse.quote('周杰伦')
print(quote)
unquote = urllib.parse.unquote('%E5%91%A8%E6%9D%B0%E4%BC%A6')
print(unquote)

运行结果如下:

%E5%91%A8%E6%9D%B0%E4%BC%A6
周杰伦
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值