Python爬虫入门—urllib库的基础知识
urllib库是模拟浏览器发出请求的库,在python2和python3使用的是不同的版本
- python2:urllib 和 urllib2
- python3: urllib.request 和 urllib.parse
urllib.request
- urllib.request.urlopen():方法用于实现对目标url的访问。
- 函数原型如下:
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
- 案例:
import urllib.request
url = "https://www.baidu.com/"
response = urllib.request.urlopen(url = url)
print(response)
输出的结果:
<http.client.HTTPResponse object at 0x000002D0F9016828>
- urllib.request.urlopen(url,data = form_data)
- 可以
- urllib.request.urlretrieve(): 方法直接将远程数据下载到本地。
- 函数原型如下:
urlretrieve(url, filename=None, reporthook=None, data=None)
案例:
import urllib.request
url = "https://www.baidu.com/"
response = urllib.request.urlretrieve(url = url,"text.html")
response:
-此处的response是一个**变量**:response = urllib.request.urlopen(url = url)
- read():读取相应内容,内容是字节类型
- geturl():获取请求的url
- getheaders():获取头部信息,列表里面有元组
- getcode():获取状态码
- readlines():按行读取,返回列表,都是字节类型
urllib.parse
- urllib.parse.urlencode():这个方法可以将字典转换为url参数
import urllib.parse
params = {
"name":"zhaosan",
"age":23,
}
base_url = "http://www.baidu.com?"
params = urllib.parse.urlencode(params)
url = base_url+params
print(params)
print(url)
输出结果如下:

本文详细介绍了Python中urllib库的基本用法,包括如何使用urllib.request模块发起HTTP请求,下载远程文件,以及使用urllib.parse模块进行URL编码等操作。适合Python爬虫初学者快速上手。
2396

被折叠的 条评论
为什么被折叠?



