scrapy爬虫遇到相对路径问题的解决

最新推荐文章于 2025-10-07 15:44:12 发布

原创最新推荐文章于 2025-10-07 15:44:12 发布 · 3.4k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#scrapy #爬虫 #python3 #urljoin

Python 同时被 2 个专栏收录

15 篇文章

订阅专栏

爬虫

1 篇文章

订阅专栏

本文介绍如何在Python中处理网站相对路径链接的问题，利用urljoin方法将相对路径转换为绝对路径，确保爬虫程序能正确抓取网页资源。

网站中很多链接用的是相对路径，直接爬取会产生报错：

Missing scheme in request url: ../index.html

在python3中使用

from urllib.parse import urljoin

>>> urljoin("http://www.asite.com/folder/currentpage.html", "anotherpage.html")
'http://www.asite.com/folder/anotherpage.html'
>>> urljoin("http://www.asite.com/folder/currentpage.html", "folder2/anotherpage.html")
'http://www.asite.com/folder/folder2/anotherpage.html'
>>> urljoin("http://www.asite.com/folder/currentpage.html", "/folder3/anotherpage.html")
'http://www.asite.com/folder3/anotherpage.html'
>>> urljoin("http://www.asite.com/folder/currentpage.html", "../finalpage.html")
'http://www.asite.com/finalpage.html'

将当前链接与相对路径可以自动拼接。