Python之urllib.parse模块

Python的urllib.parse模块主要用于处理URL,常用于爬虫中。urlparse()和urlsplit()是常用方法,前者能解析出网络协议、服务器地址等,返回6个元素的元组;后者类似,但不切分URL参数,返回5个元素的元组。更多内容可参考相关链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Python之urllib.parse模块

简介:此模块用来处理url的一个模块里面有很多方法,一般用于爬虫中,暂时介绍几种,不定时更新

  1. urlparse(url, scheme=’’, allow_fragments=True)(最常用的方法)
  • 作用:可以用来确定网络协议(HTTP、FTP等等 )、服务器地址、文件路径,等。
  • 返回值:是一个元组。每个组件是一串字符,也有可能是空的。组件不能被解析为更小的部分,%后面的也不会被解析,分割符号并不是解析结果的一部分,除非用斜线转义。
from urllib.parse import urlparse
the_url = urlparse('https://blog.youkuaiyun.com/weixin_45099622')
print(the_url)
  1. urlsplit(url, scheme=’’, allow_fragments=True)与上条相似
  • 作用:urlsplit()与urlparse()差不多。不过它不切分URL的参数。适用于遵循RFC2396的URL,每个路径段都支持参数。
  • 返回值:返回的元组就只有5个元素。
from urllib.parse import urlparse,urlunparse,urlsplit

method_1 = urlparse('https://blog.youkuaiyun.com/weixin_45099622')
method_2 = urlsplit('https://blog.youkuaiyun.com/weixin_45099622')
print(method_1)
print(method_2)
print(method_1.netloc) #取出解析的某个组件

#ParseResult(scheme='https', netloc='blog.youkuaiyun.com', path='/weixin_45099622', params='', query='', fragment='')
#SplitResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', query='', fragment='')
#blog.youkuaiyun.com
  1. 后续更新
  2. 更详细参照网址:https://blog.youkuaiyun.com/qq_36148847/article/details/79153738
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值