Python爬虫-请求模块Urllib
Python3中的Urllib 模块中包含多个功能的子模块,具体内容如下:
urllib.request:用于实现基本HTTP请求的模块。
urllib.error:异常处理模块,如果在发送网络请求时出现了错误,可以捕获异常进行异常的有效处理。
urllib.parse:用于解析URL的模块。
urllib.robotparser:用于解析robots.txt文件,判断网站是否可以爬取信息。
使用 urlopen()方法发送请求
urllib.request模块提供了urlopen()方法,用于实现最基本的HTTP请求,然后接收服务端所返回的响应数据。urlopen()方法的语法格式如下:
urllib.request.urlopen(url,data-None,[timeout,]*,cafile-None,capath-None,cadefault-False, context=None)
url:需要访问网站的URL完整地址。
data:该参数默认为None,通过该参数确认请求方式,如果是None,表示请求方式为GET,否则请求方式为POST,在发送POST请求时,参数data 需要以字典形式的数据作为参数值,并且需要将字典类型的参数值转换为字节类型的数据才可以实现POST请求。
timcout:以秒为单位,设置超时。
cafile、capath:指定一组 HTTPS请求受信任的CA证书,cafile指定包含CA证书的单个文件,capath指定证书文件的目录。
cadefault:CA证书默认值。
context:描述SSL选项的实例。
HTTPResponse 常用的方法与属性获取信息
import urllib.request # 导入request子模块
url = 'https://www.python.org/'
response = urllib.request.urlopen(url=url) # 发送网络请求
print('响应状态码为:',response.status)
print('响应头所有信息为:',response.getheaders())
print('响应头指定信息为:',response.getheader('Accept-Ranges'))
# 读取HTML代码并进行utf-8解码
print('Python官网HTML代码如下:\n',response.read().decode('utf-8'))
运行:
响应状态码为: 200
响应头所有信息为: [('Connection', 'close'), ('Content-Length', '50771'), ('Content-Type', 'text/html; charset=utf-8'), ('X-Frame-Options', 'SAMEORIGIN'), ('Via', '1.1 varnish, 1.1 varnish'), ('Accept-Ranges', 'bytes'), ('Date', 'Sat, 17 Aug 2024 04:05:29 GMT'), ('Age', '883'), ('X-Served-By', 'cache-iad-kiad7000025-IAD, cache-nrt-rjtf7700020-NRT'), ('X-Cache', 'HIT, HIT'), ('X-Cache-Hits', '461, 64'), ('X-Timer', 'S1723867530.760647,VS0,VE0'), ('Vary', 'Cookie'), ('Strict-Transport-Security', 'max-age=63072000; includeSubDomains; preload')]
响应头指定信息为: bytes
使用urlopen()方法发送POST请求
import urllib.request # 导入urllib.request模块
import urllib.parse # 导入urllib.parse模块
url = 'https://www.httpbin.org/post' # post请求测试地址
# 将表单数据转换为bytes类型,并设置编码方式为utf-8
data = bytes(urllib.parse.urlencode({
'hello':'python'}),encoding='utf-8')
response = urllib.request.urlopen(url=url,data=data) # 发送网络请求
print(response.read().decode('utf-8')) # 读取HTML代码并进行
运行:
{
"args": {
},
"data": "",
"files": {
},
"form": {
"hello": "python"
},
"headers":

最低0.47元/天 解锁文章
1425

被折叠的 条评论
为什么被折叠?



