目录
urllib库
urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。
urlopen函数
在Python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面。
urlopen函数有如下几点需要注意:
- url:请求的url
- data:请求的data,如果设置这个值,将会变成post请求。
- 返回值:返回值是一个http.client.HTTPResponse对象,这个对象是一个类文件句柄对象。有read(size)、readline、readlines以及getcode等方法。
urlretrieve函数
这个函数可以方便的将网页上的一个文件保存到本地
urlencode函数
urlencode可以把字典数据转换为URL编码的数据
parse_qs函数
可以将经过编码后的url参数进行解码
urlsplit和urlparse
有时候拿到一个url,想要对这个url中的各个组成部分进行分割,那么这时候就可以使用urlparse或者是urlsplit来进行分割
request.Request类
如果想要在请求的时候增加一些请求头,那么就必须使用request.Request类来实现
实际操作代码
from urllib import request,parse
#urlopen函数基本操作
'''
url = 'http://www.baidu.com'
resp = request.urlopen( url )
print( resp.read() )
'''
#urlretrieve函数(保存数据到本地)
'''
request.urlretrieve( 'http://www.baidu.com/', 'baidu.html' )
'''
#urlencode函数(导入parse模块,url编码)
'''
data = { 'name':'张三' }
qs = parse.urlencode(data)
print( qs )
'''
#parse_qs函数(url解码)
'''
qs = 'name=%E5%BC%A0%E4%B8%89'
print( parse.parse_qs( qs ) )
'''
#urlparse函数和urlsplit函数(两个函数大致一样,urlparse函数比urlsplit函数多获取一个params属性,但此属性用的比较少)
'''
url = 'http://www.baisu.com/s;hello?username=phishing'
result = parse.urlparse( url )
print( 'scheme:', result.scheme )
print( 'netloc:', result.netloc )
print( 'path:', result.path )
print( 'query:', result.query )
print( 'params:', result.params )
'''
#Request函数(增加一些请求头)
'''
rs = request.Request(url,headers={
'User-Agent', 'Mozilla/6.0 (iPhone; CPU iPhone OS 8_0 like Mac OS X)
AppleWebKit/536.26 (KHTML, like Gecko) Version/8.0 Mobile/10A5376e Safari/8536.25'
})
'''