
一淘搜索之网页抓取系统分析
文章平均质量分 70
1. 一淘搜索之网页抓取系统分析
2. 一淘搜索之网页抓取系统实现
young-hz
人生好比一场70年代的拳击比赛,充满了躲闪与出拳,如果足够幸运,只需一次机会一个重拳而已。但首要条件是,你必须顽强地站着,挺住意味着一切。
展开
-
一淘搜索之网页抓取系统分析与实现(3)—scrapy+webkit & mysql+django
结构图scrapy+webkit:如结构图③。scrapy不能实现对javascript的处理,所以需要webkit解决这个问题。开源的解决方案可以选择scrapinghub的scrapyjs或者功能更强大的splash.关于scrapy+webkit的使用后期进行分析。scrapy+django:如结构图④。django实现的配置界面主要是对抓取系统的管理和配置,原创 2014-07-28 11:42:58 · 7614 阅读 · 2 评论 -
redis研究笔记
一. redisRedis is an in-memory database that persists on disk. The data model is key-value, but many different kind of values are supported: Strings, Lists, Sets, Sorted Sets, Hashes http原创 2014-07-24 08:07:58 · 4785 阅读 · 0 评论 -
升级scrapy-redis代码,使与更新版本scrapy兼容
scrapy-redis的安装要求是scrapy版本高于0.14,是原创 2014-07-24 16:59:34 · 10379 阅读 · 2 评论 -
scrapy-redis实现爬虫分布式爬取分析与实现
一 scrapy-redis实现分布式爬取分析所谓的scrapy-redis实际上就是scrapy+redis其中对redis的操作采用redis-py客户端。这里的redis的作用以及在scrapy-redis的方向我在自己fork的repository(链接:)已经做了翻译(README.rst)。在前面一篇文章中我已经借助两篇相关文章分析了使用redis实现爬虫分布式的中心。归结起来原创 2014-07-24 20:21:19 · 34944 阅读 · 5 评论 -
scrapy-redis源码分析
原创文章,链接:(I) connection.py负责根据setting中配置实例化redis连接。被dupefilter和scheduler调用,总之涉及到redis存取的都要使用到这个模块。(II) dupefilter.py负责执行requst的去重,实现的很有技巧性,使用redis的set数据结构。但是注意scheduler并不使用其中用于在这个模块中实现的dupe原创 2014-07-28 11:02:33 · 12419 阅读 · 9 评论 -
一淘搜索之网页抓取系统分析与实现(4)- 实现&总结
以一淘搜索的crawler为核心展开的分析到此基本结束了,除了django和mysql部分没有涉及,其它部分都进行了test,尤其是围绕crawler,所展开的分析和实现主要有:1. 分布式crawler与分布式pipeline处理。使用scrapy+redis实现,用到了scrapy+scrapy-redis。关于自己相关代码也在fork的repo做了探索与实现。2. j原创 2014-07-30 20:19:23 · 5161 阅读 · 1 评论 -
一淘搜索之网页抓取系统分析与实现(2)—redis + scrapy
1.scrapy+redis使用(1)应用这里redis与scrapy一起,scrapy作为crawler,而redis作为scrapy的调度器。如架构图中的②所示。图1 架构图(2)为什么选择redisredis作为调度器的实现仍然和其特性相关,可见《一淘搜索之网页抓取系统分析与实现(1)——redis使用》(url)中关于redis的分析。2.redis原创 2014-07-28 11:36:38 · 6889 阅读 · 0 评论 -
一淘搜索之网页抓取系统分析与实现(1)—redis使用
原创文章,链接:1.redis使用(1)应用redis在抓取系统中主要承担两方面的责任,其一是作为链接存储数据库,其二是与ceawler一起并作为crawler的调度器。后者将在“scrapr+redis(url)”中阐述。(2)为什么选择redisredis的特性体现在“内存数据库”和“KV”存储方式上,前者决定其性能,后者决定其存储内容的易于组织性。reidis的使原创 2014-07-28 11:31:08 · 6554 阅读 · 0 评论