Python3 URL解析库 — urlparse

最新推荐文章于 2023-06-11 23:05:04 发布

原创最新推荐文章于 2023-06-11 23:05:04 发布 · 2.1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#网络

本文介绍了Python3中用于URL解析的urlparse模块，该模块整合了urlparse, urljoin, urldefrag等，提供方便的URL操作方式。通过使用urlparse，可以获取URL的scheme、netloc、path、params、query和fragment等组成部分。例如，对于'juejin.cn/user/280560...'这样的URL，可以轻松提取其各个部分。" 78414737,5778899,R语言快速实现文本分词与词频统计,"['R语言', '文本挖掘', '词频统计', '数据处理', '可视化']

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

解析一个 URL 获得各个概念所对应的值在 Python 中显得很简单, Python3 中将 urllib2、urlparse 和 robotparse 并入了 urllib 模块中, 所以原本在 Python 导入的方式在 Python3 中应该这样导入：

from urllib.parse import urlparse
复制代码

使用它我们可以获得 ParseResult 对象, 我们可以通过下标或者属性名来访问对象属性：

scheme (协议)
netloc (域名)
path (路径)
params (可选参数)
query (连接键值对)
fragment (特殊锚)

属性名	索引值	说明	空值情况下表达
scheme	0	URL 协议	`""`
netloc	1	URL 域名	`""`
path	2	URL 请求路径	`""`
params	3	URL 可选参数	`""`
query	4	URL 键值对参数	`""`
fragment	5	URL 特殊锚	`""`
username		用户名	`None`
password		密码	`None`
hostname		主机名(小写)	`None`
port		如果存在, 则是整数端口号	`None`
我们测试下这个函数的使用：
```python
#!/usr/bin/env python
# * Coding: UTF-8 *
from urllib.parse import urlparse

result = urlparse('juejin.cn/user/280560…') print(result)

输出的结果是：
```python
ParseResult(
    scheme='https', 
    netloc='juejin.im', 
    path='/user/5da32395e51d4578200cc9c5/posts', 
    params='', 
    query='params=123&username=123', 
    fragment=''
)

您可能感兴趣的与本文相关的镜像

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本