概要
请求传参实现的深度爬取
深度爬取:爬取的数据没有在同一张页面中(首页数据+详情页数据)
在scrapy中如果没有请求传参我们是无法持久化存储数据,也就是无法通过管道存储数据 【持久化存储:管道】
实现方式:scrapy.Request(url,callback,meta)
- meta是一个字典,可以将meta传递给callback
callback取出meta:
-response.meta['item']
需求和实现
- 需求
电影狗-电影详情页
爬取电影的
标题和详情介绍
-
标题

-
详情页介绍

-
实现
-
spider.py
import scrapy
from firstBlood.items import FirstbloodItem # items.py中的类
class DainyingSpider(scrapy.Spider):
name = 'dainying'
# allowed_dom

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



