引言
最近在学习Python爬虫,这里推荐一个入门爬虫的博客系列
https://github.com/Ehco1996/Python-crawler
博主写的对新手很友好,很适合入门。
我写这篇文章的目的是记录一下在学习他的
从零开始写Python爬虫 — 爬虫应用:IT之家热门段子(评论)爬取
中做的改进和遇到的问题。
思路
和原文爬取特定分类新闻下的热评不同的是,我是爬取IT之家首页的最热排行里24小时阅读榜中文章的热门评论,增加一下热评的时效性。
根据原文,我的思路如下:
- 获取首页最热排行里文章的url
- 根据对应url获取newsID,再将newsID和type数据post给接口http://it.ithome.com/ithome/getajaxdata.aspx获取返回的热评数据
- 解析出热评的标题、评论人、时间、内容、支持数和反对数,进行存储
本以为能够很顺利的实现,结果还是遇到了一些问题。
问题
原文是用requests和多进程实现爬取速度的提升,由于Scrapy本身就是利用多进程实现爬取速度的提升,再加上我想换一种方法实现,这里就采用Scrapy实现。下面就是遇到的问题。