17 - 05 - 24 Python3 urllib.parse functions

最新推荐文章于 2021-01-29 00:12:07 发布

原创最新推荐文章于 2021-01-29 00:12:07 发布 · 486 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #urllib #urllib.prase

Python 专栏收录该内容

9 篇文章

订阅专栏

本文介绍了Python3中urllib.parse模块的几个常用函数，包括如何获取URL参数并解析为字典，如何使用urlencode函数将字典编码为URL参数字符串，以及quote/quote_plus和unquote/unquote_plus函数的应用。

# Python3的urllib.parse常用函数

获取url参数

>>> from urllib import parse
>>> url=r'https://docs.python.org/3.5/search.html?q=parse
&check_keywords=yes&area=default'
>>> parseResult = parse.urlparse(url)
>>> parseResult
ParseResult(scheme='https',netloc='docs.python.org', path='/3.5/search.html',params='', query='q=parse&check_keywords=yes&area=default', fragment='')
>>> param_dict = parse.parse_qs(parseResult.query)
>>> param_dict
{'q': ['parse'], 'check_keywords': ['yes'], 'area': ['default']}
>>> q = param_dict['q'][0]
>>> q
'parse'

#注意：加号会被解码，可能有时并不是我们想要的

>>> parse.parse_qs('proxy=183.222.102.178:8080&task=XXXXX|5-3+2')
{'proxy': ['183.222.102.178:8080'], 'task': ['XXXXX|5-3 2']}

2、urlencode

>>> from urllib import parse
>>> query = {
  'name': 'walker',
  'age': 99,
  }
>>> parse.urlencode(query)
'name=walker&age=99'

3、quote/quote_plus

>>> from urllib import parse
>>> parse.quote('a&b/c')  #未编码斜线
'a%26b/c'
>>> parse.quote_plus('a&b/c')  #编码了斜线
'a%26b%2Fc'

4、unquote/unquote_plus

from urllib import parse
>>> parse.unquote('1+2')  #不解码加号
'1+2'
>>> parse.unquote('1+2')  #把加号解码为空格
'1 2'

如果你还想问为什么没有urldecode——再把示例1看五遍。^_^

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Sodaoo

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Minillama3-＞训练tokenizer

liguandong

06-17

451

GitHub - charent/ChatLM-mini-Chinese: 中文对话0.2B小模型（ChatLM-Chinese-0.2B），开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。中文对话0.2B小模型（ChatLM-Chinese-0.2B），开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。2.预处理成wiki.txt。1.wiki数据下载。

Python 处理 URL 路径参数（urllib.parse）

最新发布

2501_91297910的博客

04-01

357

URL 路径参数通常出现在URL的路径部分，用于传递数据或标识资源。路径部分为，其中123是一个路径参数，用于标识特定的用户。通过本文的介绍，我们了解了如何使用 Python 的模块来处理 URL 路径参数。无论是解析、提取还是构建URL，该模块都提供了丰富的功能。希望这些示例能够帮助你在实际项目中更好地处理URL相关的问题。如果你有更多关于URL处理的需求，欢迎继续探索的其他功能！```

参与评论您还未登录，请先登录后发表或查看评论

python爬虫内置库之urllib.parse---URL解析

生命在于休息的博客

05-18

2464

该模块定义了一个标准接口，用于在组件中解析统一资源定位符（URL）字符串（寻址方案，网络位置，路径等），将组件组合回URL字符串，并将“相对URL”转换为绝对URL给出“基本URL”。该模块旨在匹配相对统一资源定位器上的Internet RFC。它支持下列URL方案：file，ftp，gopher，hdl，http，https，imap，mailto，mms，news，nntp，prosp...

Python3模块详解--老司机工具urllib模块详解之urllib.parse子模块

郑小小小小源的博客

09-02

1万+

This module defines a standard interface to break Uniform Resource Locator (URL) strings up in components (addressing scheme, network location, path etc.), to combine the components back into a URL

python urllib.parse_urllib.parse --- Parse URLs into components — Python 3.7.9 文档

weixin_39790168的博客

12-04

230

urllib.parse --- Parse URLs into components¶This module defines a standard interface to break Uniform Resource Locator (URL)strings up in components (addressing scheme, network location, path etc.), t...

python2 爬虫_Python爬虫（2）- Urllib库

weixin_31598511的博客

01-29

294

Urllib库Urllib库是Python内置的HTTP请求库，包括urllib.request请求模块，urllib.error异常处理模块，urllib.parse url解析模块，urllib.robotparser robots.txt解析模块。urlopenimport urllib.requestresponse = urllib.request.urlopen('https://ww...

python urllib.request 爬虫数据处理-python之爬虫（三） Urllib库的基本使用

weixin_37988176的博客

11-01

222

什么是UrllibUrllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块urlopen关于urllib.request.urlopen参数的介绍：urllib.request.urlopen(url, data=N...

python爬虫基础知识（一）--Urllib.request

snailpeople的博客

12-11

831

explain：The urllib.request module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest authentication, redirections, cookies and more.1.urllib.re

python爬虫 - Urllib库及cookie的使用

Together_CZ的博客

04-16

4847

转自：http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点，python3中urllib包括了py2中的urllib+urllib2。[python2和python3的区别、转换及共存 - urllib] 怎样扒网页？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是

python爬虫怎么加cookie_python爬虫 - Urllib库及cookie的使用

weixin_39904116的博客

12-15

490

lz提示一点，python3中urllib包括了py2中的urllib+urllib2。和python3的区别、转换及共存- urllib]怎样扒网页？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加JS、CSS。如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所...

python 爬虫基础入门 (十二)

鱼的博客

11-18

1427

世界上80%的爬虫是基于Python开发的，学好爬虫技能，可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。整理这个文档资料希望能对小伙伴有帮助。什么是爬虫？网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据爬虫可以做什么？你可以爬去妹子的图片，爬取自己想看看的视

python3.6.5参考手册 chm

04-15

urllib.parse mailbox turtledemo Multi-threading Optimizations Unicode Codecs Documentation IDLE Code Repository Build and C API Changes Porting to Python 3.2 What’s New In Python 3.1 PEP ...

pyparsecom：Python编写的Parse.com REST API封装工具

标签列表提供了丰富的上下文信息：“Python”表明该工具适用于Python 2.x或3.x环境，可能依赖标准库中的`urllib`、`json`或第三方库如`requests`来实现HTTP通信；“Parse.com”定位了服务目标，说明其设计初衷是为了...

忧郁的弟弟(galgame)全站抓取