Scrapy IT之家评论爬虫

本文记录了使用Scrapy爬取IT之家热门评论的过程,包括遇到的挑战和解决方案。主要问题包括newsID的拼接、接口POST数据变化、JSON响应处理以及Scrapy的ROBOTSTXT_OBEY设置。通过正则匹配和分析接口,成功获取并解析了评论数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

引言

最近在学习Python爬虫,这里推荐一个入门爬虫的博客系列
https://github.com/Ehco1996/Python-crawler
博主写的对新手很友好,很适合入门。

我写这篇文章的目的是记录一下在学习他的
从零开始写Python爬虫 — 爬虫应用:IT之家热门段子(评论)爬取
中做的改进和遇到的问题。

思路

和原文爬取特定分类新闻下的热评不同的是,我是爬取IT之家首页的最热排行里24小时阅读榜中文章的热门评论,增加一下热评的时效性。

根据原文,我的思路如下:

  1. 获取首页最热排行里文章的url
  2. 根据对应url获取newsID,再将newsID和type数据post给接口http://it.ithome.com/ithome/getajaxdata.aspx获取返回的热评数据
  3. 解析出热评的标题、评论人、时间、内容、支持数和反对数,进行存储

本以为能够很顺利的实现,结果还是遇到了一些问题。

问题

原文是用requests和多进程实现爬取速度的提升,由于Scrapy本身就是利用多进程实现爬取速度的提升,再加上我想换一种方法实现,这里就采用Scrapy实现。下面就是遇到的问题。

1.

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值