scrapy爬虫解析起始页网页链接后request请求不能正常跳转到下一级爬虫类的解析方法中

最新推荐文章于 2025-10-09 10:48:35 发布

原创

最新推荐文章于 2025-10-09 10:48:35 发布 · 833 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#url #前端

本文讨论了在使用Scrapy爬虫时遇到的问题：从起始页获取的URL在请求时出现额外的%20（空格）后缀。经过排查，发现该问题源于HTML标签的href属性末尾含有空格。解决方案是去除URL中的空格，以确保正确请求下一级页面。

爬虫启动后，bash显示如下信息：

    2020-04-07 18:38:17 [scrapy.core.engine] INFO: Spider opened
    2020-04-07 18:38:17 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
    2020-04-07 18:38:17 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
    2020-04-07 18:38:23 [scrapy.core.engine] INFO: Closing spider (finished)