Python之urllib.parse模块

最新推荐文章于 2025-03-26 06:49:57 发布

爱吃面包的欣儿欣儿

最新推荐文章于 2025-03-26 06:49:57 发布

阅读量264

点赞数

分类专栏： Python 文章标签：爬虫

本文链接：https://blog.youkuaiyun.com/weixin_45099622/article/details/103386794

版权

Python 专栏收录该内容

2 篇文章

订阅专栏

Python的urllib.parse模块主要用于处理URL，常用于爬虫中。urlparse()和urlsplit()是常用方法，前者能解析出网络协议、服务器地址等，返回6个元素的元组；后者类似，但不切分URL参数，返回5个元素的元组。更多内容可参考相关链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python之urllib.parse模块

简介：此模块用来处理url的一个模块里面有很多方法，一般用于爬虫中，暂时介绍几种，不定时更新

urlparse(url, scheme=’’, allow_fragments=True)（最常用的方法）

作用：可以用来确定网络协议(HTTP、FTP等等 )、服务器地址、文件路径，等。
返回值：是一个元组。每个组件是一串字符，也有可能是空的。组件不能被解析为更小的部分，%后面的也不会被解析，分割符号并不是解析结果的一部分，除非用斜线转义。

from urllib.parse import urlparse
the_url = urlparse('https://blog.youkuaiyun.com/weixin_45099622')
print(the_url)

urlsplit(url, scheme=’’, allow_fragments=True)与上条相似

作用：urlsplit()与urlparse()差不多。不过它不切分URL的参数。适用于遵循RFC2396的URL，每个路径段都支持参数。
返回值：返回的元组就只有5个元素。

from urllib.parse import urlparse,urlunparse,urlsplit

method_1 = urlparse('https://blog.youkuaiyun.com/weixin_45099622')
method_2 = urlsplit('https://blog.youkuaiyun.com/weixin_45099622')
print(method_1)
print(method_2)
print(method_1.netloc) #取出解析的某个组件

#ParseResult(scheme='https', netloc='blog.youkuaiyun.com', path='/weixin_45099622', params='', query='', fragment='')
#SplitResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', query='', fragment='')
#blog.youkuaiyun.com