本篇博客学习使用 CrawlSpider 进行二维抓取。
目标站点分析
本次要采集的目标站点为:阅文集团作家中心
分页地址具备一定规则,具体如下:
https://write.qq.com/portal/article?filterType=0&page={页码}
由于本文重点学习内容为简单操作 scrapy
实现爬虫,所以目标详情页仅提取标题即可。
知识说明
本篇博客生成爬虫文件,使用 scrapy genspider -t crawl yw write.qq.com
,默认生成的代码如下所示:
import scrapy
from scrapy.linkextrac