Python爬虫-请求模块Urllib

最新推荐文章于 2025-11-05 14:02:54 发布

原创

最新推荐文章于 2025-11-05 14:02:54 发布 · 916 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #开发语言

Python爬虫-请求模块Urllib

Python3中的Urllib 模块中包含多个功能的子模块，具体内容如下：
urllib.request：用于实现基本HTTP请求的模块。
urllib.error：异常处理模块，如果在发送网络请求时出现了错误，可以捕获异常进行异常的有效处理。
urllib.parse：用于解析URL的模块。
urllib.robotparser：用于解析robots.txt文件，判断网站是否可以爬取信息。

使用 urlopen（）方法发送请求

urllib.request模块提供了urlopen（）方法，用于实现最基本的HTTP请求，然后接收服务端所返回的响应数据。urlopen（）方法的语法格式如下：

urllib.request.urlopen(url,data-None,[timeout,]*,cafile-None,capath-None,cadefault-False, context=None)

url：需要访问网站的URL完整地址。
data：该参数默认为None，通过该参数确认请求方式，如果是None，表示请求方式为GET，否则请求方式为POST，在发送POST请求时，参数data 需要以字典形式的数据作为参数值，并且需要将字典类型的参数值转换为字节类型的数据才可以实现POST请求。
timcout：以秒为单位，设置超时。
cafile、capath：指定一组 HTTPS请求受信任的CA证书，cafile指定包含CA证书的单个文件，capath指定证书文件的目录。
cadefault：CA证书默认值。
context：描述SSL选项的实例。

HTTPResponse 常用的方法与属性获取信息

import urllib.request    # 导入request子模块
url = 'https://www.python.org/'
response = urllib.request.urlopen(url=url)  # 发送网络请求
print('响应状态码为：',response.status)
print('响应头所有信息为：',response.getheaders())
print('响应头指定信息为：',response.getheader('Accept-Ranges'))
# 读取HTML代码并进行utf-8解码
print('Python官网HTML代码如下：\n',response.read().decode('utf-8'))

运行：

响应状态码为： 200
响应头所有信息为： [('Connection', 'close'), ('Content-Length', '50771'), ('Content-Type', 'text/html; charset=utf-8'), ('X-Frame-Options', 'SAMEORIGIN'), ('Via', '1.1 varnish, 1.1 varnish'), ('Accept-Ranges', 'bytes'), ('Date', 'Sat, 17 Aug 2024 04:05:29 GMT'), ('Age', '883'), ('X-Served-By', 'cache-iad-kiad7000025-IAD, cache-nrt-rjtf7700020-NRT'), ('X-Cache', 'HIT, HIT'), ('X-Cache-Hits', '461, 64'), ('X-Timer', 'S1723867530.760647,VS0,VE0'), ('Vary', 'Cookie'), ('Strict-Transport-Security', 'max-age=63072000; includeSubDomains; preload')]
响应头指定信息为： bytes

使用urlopen（）方法发送POST请求

import urllib.request    # 导入urllib.request模块
import urllib.parse      # 导入urllib.parse模块
url = 'https://www.httpbin.org/post'    # post请求测试地址
# 将表单数据转换为bytes类型，并设置编码方式为utf-8
data = bytes(urllib.parse.urlencode({
   
   'hello':'python'}),encoding='utf-8')
response = urllib.request.urlopen(url=url,data=data)  # 发送网络请求
print(response.read().decode('utf-8'))    # 读取HTML代码并进行

运行：

{
   
   
  "args": {
   
   },
  "data": "",
  "files": {
   
   },
  "form": {
   
   
    "hello": "python"
  },
  "headers":

最低0.47元/天解锁文章