作为一名NLPer,爬虫技能越来越显得不可缺少,没有枪,没有语料,我们只好自己造。
在我觉得需要掌握一个爬虫技能时,就去查找看现在哪个爬虫工具风评比较好,在参考了众多回答后,选择了Scrapy。而在用Scrapy实现了几个爬虫项目后,我对这个爬虫工具非常满意,完全可以用爬虫界的神器来比喻!
Scrapy简单易用,完全可以去Scrapy官网对教程撸一下。但我当时写爬虫的时候,对怎么实现不同页面间的传值,着实费了一些功夫。
这个传值,是不是很像我们平时写程序中的“全局变量”?
好了,直入主题,其实就是设置meta变量。
- 代码:
def parse(self, response):
main = response.css('div.search_content')
href = 'google.com'
meta_data = main.css('div.clearfixed').extract_first()
yield scrapy.Request(href, meta = {'meta_data': meta_data }, callback = self.parse_position)
这里缩减了很多内容,只是为了展示meta的设置,看到yield,里面的参数,有个meta的字典类型,在里面就可以设置Scrapy的跨页面传值了。