Python爬虫入门—urllib库的基础知识

最新推荐文章于 2025-09-16 13:52:39 发布

原创最新推荐文章于 2025-09-16 13:52:39 发布 · 294 阅读

1 ·

CC 4.0 BY-SA版权

本文详细介绍了Python中urllib库的基本用法，包括如何使用urllib.request模块发起HTTP请求，下载远程文件，以及使用urllib.parse模块进行URL编码等操作。适合Python爬虫初学者快速上手。

Python爬虫入门—urllib库的基础知识

urllib库是模拟浏览器发出请求的库，在python2和python3使用的是不同的版本

python2：urllib 和 urllib2
python3： urllib.request 和 urllib.parse

urllib.request

urllib.request.urlopen()：方法用于实现对目标url的访问。
- 函数原型如下：

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

	- 案例：

import urllib.request
url = "https://www.baidu.com/"
response = urllib.request.urlopen(url = url)
print(response)

	 输出的结果：

<http.client.HTTPResponse object at 0x000002D0F9016828>

urllib.request.urlopen(url,data = form_data)
- 可以
urllib.request.urlretrieve(): 方法直接将远程数据下载到本地。
- 函数原型如下：

urlretrieve(url, filename=None, reporthook=None, data=None)

	案例：

import urllib.request
url =  "https://www.baidu.com/"
response = urllib.request.urlretrieve(url = url,"text.html")

response：

-此处的response是一个**变量**：response = urllib.request.urlopen(url = url)
	 - read（）：读取相应内容，内容是字节类型
	 - geturl（）：获取请求的url
	 - getheaders（）：获取头部信息，列表里面有元组
	 - getcode（）：获取状态码
	 - readlines（）：按行读取，返回列表，都是字节类型

urllib.parse

urllib.parse.urlencode():这个方法可以将字典转换为url参数

import urllib.parse
params = {
    "name":"zhaosan",
    "age":23,
}
base_url = "http://www.baidu.com?"
params = urllib.parse.urlencode(params)
url = base_url+params
print(params)
print(url)

输出结果如下：
在这里插入图片描述