
爬虫
Johnson0722
learning like deep learning
展开
-
Scrapy-redis增量爬取以及Simhash相似文档的去重
最近在实习,第一个任务就是从各大门户网站抓取新闻,爬虫本身不是一个很难的事情,用scrapy框架很容易完成(关于scrapy的具体用法可以参考我之前的一篇博客http://blog.youkuaiyun.com/john_xyz/article/details/78157805, 但是由于要求是要增量爬取,而且要去除相似的新闻,这里记录一下解决问题的方法以及踩过的坑Scrapy-redis增量爬取...原创 2017-11-11 18:58:08 · 4577 阅读 · 0 评论 -
Scrapy爬虫原理及实践
Scrapy简介Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。架构概览Scrapy Engine:引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件,此组件相当于爬虫的“大脑”,是整个爬虫的调度中心。调度器(Schedule...原创 2017-10-04 12:18:52 · 2343 阅读 · 0 评论