Scrapy全局变量

作为一名NLPer,爬虫技能越来越显得不可缺少,没有枪,没有语料,我们只好自己造。

  在我觉得需要掌握一个爬虫技能时,就去查找看现在哪个爬虫工具风评比较好,在参考了众多回答后,选择了Scrapy。而在用Scrapy实现了几个爬虫项目后,我对这个爬虫工具非常满意,完全可以用爬虫界的神器来比喻!

  Scrapy简单易用,完全可以去Scrapy官网对教程撸一下。但我当时写爬虫的时候,对怎么实现不同页面间的传值,着实费了一些功夫。

这个传值,是不是很像我们平时写程序中的“全局变量”?

好了,直入主题,其实就是设置meta变量。

  • 代码:
    def parse(self, response):
        main = response.css('div.search_content')   
        href = 'google.com'
        meta_data = main.css('div.clearfixed').extract_first()         
        yield scrapy.Request(href, meta = {'meta_data': meta_data }, callback = self.parse_position)

  这里缩减了很多内容,只是为了展示meta的设置,看到yield,里面的参数,有个meta的字典类型,在里面就可以设置Scrapy的跨页面传值了。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值