需求:抓取当当图书的信息
目标:抓取当当图书信息, 包含: 图书所属大分类、图书所属小的分类、小分类的url地址, 图书的名字、封面图片地址、图书url地址、作者、出版社、出版时间、价格、
思路分析:
- 程序的入口
当当图书中,从大分类入手,还有一个中间分类,以及小分类,小分类对一个的地址就是列表页的地址
注意,url地址的响应和elements略微不同,其中不是每个大分类都在a标签中,中间部分分类不在span标签中
##注意:
由于前两个大分类中小分类对应的列表是变化的,我们只需要根据不同小分类名称进行它的列表类型, 然后进行不同提取就可以;换句话说代码量比较多
#2. 确定列表页的url地址和程序终止条件
有下一页的时候,li[@class=“next”]下的a标签有链接
有一个class="next none"的标签
所以只要找不到next none的情况下,就找next的url
#3. 确定数据的位置
#4.开始写爬虫
##1.创建爬虫项目
scrapy startproject dangdang
cd dangdang
scrapy genspider book