urlparse 模块

最新推荐文章于 2024-11-08 11:53:48 发布

Q_do_it

最新推荐文章于 2024-11-08 11:53:48 发布

阅读量444

点赞数

CC 4.0 BY-SA版权

分类专栏： Python Web 文章标签： urlparse

本文链接：https://blog.youkuaiyun.com/Q_do_it/article/details/83048820

Python Web 专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了Python中urlparse模块的使用方法，包括urlparse(), urlunparse()和urljoin()三个核心函数，展示了如何解析、组合及拼接URL，是进行网络爬虫或Web开发时处理URL的必备知识。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

urlparse 模块

urlpasrse 模块提供了一些基本功能，用于处理 URL 字符串。这些功能包括 urlparse()、urlunparse()和 urljoin()

 from urllib import parse as urlparse（3.0版本后）

urlparse()将 urlstr 解析成一个 6 元组（prot_sch, net_loc, path, params, query, frag）。

eg：url_my=urlparse.urlparse('http://www.python.org/doc/FAQ.html')    #解析URL
	print (url_my)
	结果为：ParseResult(scheme='http', netloc='www.python.org', path='/doc/FAQ.html', params='', query='', fragment='')

urlunparse()的功能与 urlpase()完全相反

eg：url_un=urlparse.urlunparse(url_my)#组合URL
    print("url_un为",url_un)
    结果为：url_un为 http://www.python.org/doc/FAQ.html

urljoin()要处理多个相关的 URL
urljoin()取得根域名，并将其根路径（net_loc 及其前面的完整路径，但是不包括末端的
文件）与 newurl 连接起来。

eg：ur=urlparse.urljoin('http://www.python.org/doc/FAQ.html','current/lib/lib.htm')#拼接URL
	print(ur)
	结果为：http://www.python.org/doc/current/lib/lib.htm

总结为如下表格：

urlparse函数	描述
urlparse(urlstr, defProtSch=None, allowFrag=None)	将 urlstr 解析成各个组件，如果在 urlstr 中没有给定协议或者方案，则使用 defProtSch；allowFrag 决定是否允许有 URL 片段
urlunparse(urltup)	将 URL 数据(urltup)的一个元组拼成一个 URL 字符串
urljoin(baseurl, newurl, allowFrag=None)	将 URL 的根域名和 newurl 拼合成一个完整的 URL；allowFrag 的作用和urlpase()相同