Python爬虫-请求模块Urllib

Python爬虫-请求模块Urllib

Python3中的Urllib 模块中包含多个功能的子模块,具体内容如下:
urllib.request:用于实现基本HTTP请求的模块。
urllib.error:异常处理模块,如果在发送网络请求时出现了错误,可以捕获异常进行异常的有效处理。
urllib.parse:用于解析URL的模块。
urllib.robotparser:用于解析robots.txt文件,判断网站是否可以爬取信息。

使用 urlopen()方法发送请求

urllib.request模块提供了urlopen()方法,用于实现最基本的HTTP请求,然后接收服务端所返回的响应数据。urlopen()方法的语法格式如下:

urllib.request.urlopen(url,data-None,[timeout,]*,cafile-None,capath-None,cadefault-False, context=None)

url:需要访问网站的URL完整地址。
data:该参数默认为None,通过该参数确认请求方式,如果是None,表示请求方式为GET,否则请求方式为POST,在发送POST请求时,参数data 需要以字典形式的数据作为参数值,并且需要将字典类型的参数值转换为字节类型的数据才可以实现POST请求。
timcout:以秒为单位,设置超时。
cafile、capath:指定一组 HTTPS请求受信任的CA证书,cafile指定包含CA证书的单个文件,capath指定证书文件的目录。
cadefault:CA证书默认值。
context:描述SSL选项的实例。

HTTPResponse 常用的方法与属性获取信息

import urllib.request    # 导入request子模块
url = 'https://www.python.org/'
response = urllib.request.urlopen(url=url)  # 发送网络请求
print('响应状态码为:',response.status)
print('响应头所有信息为:',response.getheaders())
print('响应头指定信息为:',response.getheader('Accept-Ranges'))
# 读取HTML代码并进行utf-8解码
print('Python官网HTML代码如下:\n',response.read().decode('utf-8'))

运行:

响应状态码为: 200
响应头所有信息为: [('Connection', 'close'), ('Content-Length', '50771'), ('Content-Type', 'text/html; charset=utf-8'), ('X-Frame-Options', 'SAMEORIGIN'), ('Via', '1.1 varnish, 1.1 varnish'), ('Accept-Ranges', 'bytes'), ('Date', 'Sat, 17 Aug 2024 04:05:29 GMT'), ('Age', '883'), ('X-Served-By', 'cache-iad-kiad7000025-IAD, cache-nrt-rjtf7700020-NRT'), ('X-Cache', 'HIT, HIT'), ('X-Cache-Hits', '461, 64'), ('X-Timer', 'S1723867530.760647,VS0,VE0'), ('Vary', 'Cookie'), ('Strict-Transport-Security', 'max-age=63072000; includeSubDomains; preload')]
响应头指定信息为: bytes

使用urlopen()方法发送POST请求

import urllib.request    # 导入urllib.request模块
import urllib.parse      # 导入urllib.parse模块
url = 'https://www.httpbin.org/post'    # post请求测试地址
# 将表单数据转换为bytes类型,并设置编码方式为utf-8
data = bytes(urllib.parse.urlencode({
   
   'hello':'python'}),encoding='utf-8')
response = urllib.request.urlopen(url=url,data=data)  # 发送网络请求
print(response.read().decode('utf-8'))    # 读取HTML代码并进行

运行:

{
   
   
  "args": {
   
   },
  "data": "",
  "files": {
   
   },
  "form": {
   
   
    "hello": "python"
  },
  "headers":
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值