概要
请求传参实现的深度爬取
深度爬取:爬取的数据没有在同一张页面中(首页数据+详情页数据)
在scrapy中如果没有请求传参我们是无法持久化存储数据,也就是无法通过管道存储数据 【持久化存储:管道】
实现方式:scrapy.Request(url,callback,meta)
- meta是一个字典,可以将meta传递给callback
callback取出meta:
-response.meta['item']
需求和实现
- 需求
电影狗-电影详情页
爬取电影的
标题
和详情介绍
-
标题
-
详情页介绍
-
实现
-
spider.py
import scrapy
from firstBlood.items import FirstbloodItem # items.py中的类
class DainyingSpider(scrapy.Spider):
name = 'dainying'
# al