Scrapy IT之家评论爬虫

最新推荐文章于 2025-01-13 22:29:47 发布

原创

最新推荐文章于 2025-01-13 22:29:47 发布 · 854 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文记录了使用Scrapy爬取IT之家热门评论的过程，包括遇到的挑战和解决方案。主要问题包括newsID的拼接、接口POST数据变化、JSON响应处理以及Scrapy的ROBOTSTXT_OBEY设置。通过正则匹配和分析接口，成功获取并解析了评论数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

最近在学习Python爬虫，这里推荐一个入门爬虫的博客系列
https://github.com/Ehco1996/Python-crawler
博主写的对新手很友好，很适合入门。

我写这篇文章的目的是记录一下在学习他的
从零开始写Python爬虫 — 爬虫应用：IT之家热门段子（评论）爬取
中做的改进和遇到的问题。

思路

和原文爬取特定分类新闻下的热评不同的是，我是爬取IT之家首页的最热排行里24小时阅读榜中文章的热门评论，增加一下热评的时效性。

根据原文，我的思路如下：

获取首页最热排行里文章的url
根据对应url获取newsID，再将newsID和type数据post给接口http://it.ithome.com/ithome/getajaxdata.aspx获取返回的热评数据
解析出热评的标题、评论人、时间、内容、支持数和反对数，进行存储

本以为能够很顺利的实现，结果还是遇到了一些问题。

问题

原文是用requests和多进程实现爬取速度的提升，由于Scrapy本身就是利用多进程实现爬取速度的提升，再加上我想换一种方法实现，这里就采用Scrapy实现。下面就是遇到的问题。

1. newsID在url中被/隔开，需要进行拼接

原文中给出的newsID直接在url中，例:

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。