urlparse 模块
urlpasrse 模块提供了一些基本功能,用于处理 URL 字符串。这些功能包括 urlparse()、urlunparse()和 urljoin()
from urllib import parse as urlparse(3.0版本后)
urlparse()将 urlstr 解析成一个 6 元组(prot_sch, net_loc, path, params, query, frag)。
eg:url_my=urlparse.urlparse('http://www.python.org/doc/FAQ.html') #解析URL
print (url_my)
结果为:ParseResult(scheme='http', netloc='www.python.org', path='/doc/FAQ.html', params='', query='', fragment='')
urlunparse()的功能与 urlpase()完全相反
eg:url_un=urlparse.urlunparse(url_my)#组合URL
print("url_un为",url_un)
结果为:url_un为 http://www.python.org/doc/FAQ.html
urljoin()要处理多个相关的 URL
urljoin()取得根域名,并将其根路径(net_loc 及其前面的完整路径,但是不包括末端的
文件)与 newurl 连接起来。
eg:ur=urlparse.urljoin('http://www.python.org/doc/FAQ.html','current/lib/lib.htm')#拼接URL
print(ur)
结果为:http://www.python.org/doc/current/lib/lib.htm
总结为如下表格:
urlparse函数 | 描述 |
---|---|
urlparse(urlstr, defProtSch=None, allowFrag=None) | 将 urlstr 解析成各个组件,如果在 urlstr 中没有给定协议或者方案,则使用 defProtSch;allowFrag 决定是否允许有 URL 片段 |
urlunparse(urltup) | 将 URL 数据(urltup)的一个元组拼成一个 URL 字符串 |
urljoin(baseurl, newurl, allowFrag=None) | 将 URL 的根域名和 newurl 拼合成一个完整的 URL;allowFrag 的作用和urlpase()相同 |
https://mp.youkuaiyun.com/mdeditor#
链接: link.
感谢大家的阅读!