python3中urllib的基本使用

本文详细介绍了Python中的urllib模块,包括其在Python3中的合并情况,如何使用urllib.request进行URL请求,urllib.parse进行URL解析,以及urllib.request.urlopen等方法的具体应用。同时,还提供了GET和POST请求的示例代码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

urllib

  在python3中,urllib和urllib2进行了合并,现在只有一个urllib模块,urllib和urllib2的中的内容整合进了urllib.request,urlparse整合进了urllib.parse

urlparse  将urlstr解析成各个组件

复制代码
# -*- coding:utf-8 -*-
import urllib.request
import urllib.parse
url = "http://www.baidu.com"
parsed = urllib.parse.urlparse(url)
print(parsed)
#输出:ParseResult(scheme='http', netloc='www.baidu.com', path='', params='', query='', fragment='')
复制代码

urljoin(baseurl,newurl,allowFrag=None)  将url的根域名和新url拼合成一个完整的url

import urllib.parse
url = "http://www.baidu.com"
new_path = urllib.parse.urljoin(url,"index.html")
print(new_path)
#输出:http://www.baidu.com/index.html

 

urlopen(url,data,timeout)  打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作

import urllib.request
req = urllib.request.urlopen('http://www.baidu.com')
print(req.read())

  read() , readline() , readlines() , fileno() , close() 

  info():返回一个httplib.HTTPMessage 对象,表示远程服务器返回的头信息。

  getcode():返回Http状态码,如果是http请求,200表示请求成功完成;404表示网址未找到。

  geturl():返回请求的url。

 

urlretrieve(url,filename,reporthook,data)  下载url定位到的html文件,不写路径filename则会被存为临时文件可以用 urllib.urlcleanup() 来清理缓存

file_name = urllib.request.urlretrieve('http://www.baidu.com','%s/baidu.html'%BASE_DIR)

 

urlencode()   将dict中的键值对以连接符&划分

import urllib.parse
dic = {'name':'melon','age':18}
data = urllib.parse.urlencode(dic)

print(data)     #age=18&name=melon

 

GET请求

  GET请求 和我们平常get访问方式一样,直接把参数写到网址上面就好了

复制代码
import urllib.request
import urllib.parse

dic = {'name':'melon','age':18}
data = urllib.parse.urlencode(dic)

req = urllib.request.urlopen('http://127.0.0.1:8000/index?%s'%data)
content = req.read()
复制代码

 

POST请求

复制代码
import urllib.request
import urllib.parse
import json

dic = {'name':'melon','age':18}
data = urllib.parse.urlencode(dic)

req = urllib.request.Request('http://127.0.0.1:8000/index', data.encode())
opener = urllib.request.urlopen(req)
content = json.loads(opener.read().decode())
复制代码

 

 

当你 urllib.urlopen一个 https 的时候会验证一次 SSL 证书,当目标使用的是自签名的证书时就会出现一个URLError,如果是这样可以在开头加上

import ssl
ssl._create_default_https_context = ssl._create_unverified_context

 

转载于:https://www.cnblogs.com/ExMan/p/9807158.html

### Python2 和 Python3 中 `urllib` 库中 `urlencode` 函数的使用差异及注意事项 #### 差异分析 在 Python 2 和 Python 3 中,`urlencode` 函数的功能基本一致,主要用于将字典形式的数据转换为 URL 编码的字符串。然而,在具体实现和调用方式上存在一些重要区别。 1. **模块路径的变化** - 在 Python 2 中,`urlencode` 是作为 `urllib` 模块的一部分提供的,可以直接通过 `urllib.urlencode()` 调用[^2]。 - 在 Python 3 中,`urlencode` 移动到了 `urllib.parse` 子模块下,因此需要通过 `urllib.parse.urlencode()` 来调用[^3]。 2. **输入参数的要求** - 在 Python 2 中,`urlencode` 接受字典或其他可迭代对象作为输入,并将其转化为 URL 查询字符串[^2]。 - 在 Python 3 中,虽然功能相同,但由于默认字符集从 ASCII 变为了 UTF-8,某些特殊字符可能需要额外处理以确保兼容性[^4]。 3. **返回值的类型** - 在 Python 2 中,`urlencode` 返回的是一个标准的字符串 (str)[^2]。 - 在 Python 3 中,由于引入了 bytes 和 str 的区分,`urlencode` 默认返回的是一个普通的字符串 (str),但如果涉及二进制数据,则需注意编码问题。 #### 注意事项 以下是使用 `urlencode` 进行开发时需要注意的关键点: 1. **跨版本移植代码时的调整** 如果希望编写兼容 Python 2 和 Python 3 的代码,建议显式导入 `urllib.parse` 或者利用条件判断来适配不同环境下的模块加载逻辑[^3]: ```python try: from urllib.parse import urlencode # For Python 3 except ImportError: from urllib import urlencode # For Python 2 ``` 2. **非 ASCII 字符的支持** 当传递包含中文或者其他非拉丁字母的内容至 `urlencode` 时,应确认目标系统的解码能力以及是否需要指定特定编码格式。例如: ```python params = {'name': '张三', 'city': '北京'} encoded_params = urlencode(params).encode('utf-8') # 对于 Python 3 特别适用 ``` 3. **性能优化与安全性考量** 大量复杂查询参数可能会增加计算负担并暴露潜在安全风险(如 SQL 注入)。务必验证所有外部传入数据的有效性和合法性后再执行编码操作[^5]。 ```python import urllib.parse data = { "username": "admin", "password": "!@#$%^&*()" } query_string = urllib.parse.urlencode(data) # 正确生成 GET 请求所需的查询串 print(query_string) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值