Python 爬虫技巧1 | 将爬取网页中的相对路径转换为绝对路径

本文介绍了在Python爬虫项目中如何使用urllib.parse模块将相对URL转换为绝对路径,详细解释了该模块的功能,并提供了一个实际的代码实现例子,展示了解决此问题的简洁高效方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.背景:

在爬取网页中的过程中,我对目前爬虫项目后端脚本中拼接得到绝对路径的方法很不满意,今天很无意了解到在python3 的 urllib.parse模块对这个问题有着非常完善的解决策略,真的是上天有眼,感动!

2.urllib.parse模块

This module defines a standard interface to break Uniform Resource Locator (URL) strings up in components (addressing scheme, network location, path etc.), to combine the components back into a URL string, and to convert a “relative URL” to an absolute URL given a “base URL.”

根据Python官网文档,我们可以大致了解到这个模块的3个主要功能,一是将URL分解为各个部分,二是将URL各个部分拼接成URL,三是将一个相对路径转换成绝对路径。

我们主要用它的第三个功能,使用的函数是

urllib.parse.urljoin(base, url, allow_fragments=True)

3.代码实现例子:

代码:

from urllib import parse

page_url = 'http://fcg.gxepb.gov.cn/ztzl/hjwfbgt/'
new_url = '../
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值