爬虫启动后,bash显示如下信息:
2020-04-07 18:38:17 [scrapy.core.engine] INFO: Spider opened
2020-04-07 18:38:17 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2020-04-07 18:38:17 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2020-04-07 18:38:23 [scrapy.core.engine] INFO: Closing spider (finished)

本文讨论了在使用Scrapy爬虫时遇到的问题:从起始页获取的URL在请求时出现额外的%20(空格)后缀。经过排查,发现该问题源于HTML标签的href属性末尾含有空格。解决方案是去除URL中的空格,以确保正确请求下一级页面。
最低0.47元/天 解锁文章
303

被折叠的 条评论
为什么被折叠?



