
一淘搜索系统研究
文章平均质量分 61
young-hz
人生好比一场70年代的拳击比赛,充满了躲闪与出拳,如果足够幸运,只需一次机会一个重拳而已。但首要条件是,你必须顽强地站着,挺住意味着一切。
展开
-
一淘搜索之网页抓取系统分析与实现(4)- 实现&总结
以一淘搜索的crawler为核心展开的分析到此基本结束了,除了django和mysql部分没有涉及,其它部分都进行了test,尤其是围绕crawler,所展开的分析和实现主要有:1. 分布式crawler与分布式pipeline处理。使用scrapy+redis实现,用到了scrapy+scrapy-redis。关于自己相关代码也在fork的repo做了探索与实现。2. j原创 2014-07-30 20:19:23 · 5173 阅读 · 1 评论 -
一淘搜索之网页抓取系统分析与实现(3)—scrapy+webkit & mysql+django
结构图scrapy+webkit:如结构图③。scrapy不能实现对javascript的处理,所以需要webkit解决这个问题。开源的解决方案可以选择scrapinghub的scrapyjs或者功能更强大的splash.关于scrapy+webkit的使用后期进行分析。scrapy+django:如结构图④。django实现的配置界面主要是对抓取系统的管理和配置,原创 2014-07-28 11:42:58 · 7627 阅读 · 2 评论 -
一淘搜索之网页抓取系统分析与实现(2)—redis + scrapy
1.scrapy+redis使用(1)应用这里redis与scrapy一起,scrapy作为crawler,而redis作为scrapy的调度器。如架构图中的②所示。图1 架构图(2)为什么选择redisredis作为调度器的实现仍然和其特性相关,可见《一淘搜索之网页抓取系统分析与实现(1)——redis使用》(url)中关于redis的分析。2.redis原创 2014-07-28 11:36:38 · 6902 阅读 · 0 评论 -
一淘搜索之网页抓取系统分析与实现(1)—redis使用
原创文章,链接:1.redis使用(1)应用redis在抓取系统中主要承担两方面的责任,其一是作为链接存储数据库,其二是与ceawler一起并作为crawler的调度器。后者将在“scrapr+redis(url)”中阐述。(2)为什么选择redisredis的特性体现在“内存数据库”和“KV”存储方式上,前者决定其性能,后者决定其存储内容的易于组织性。reidis的使原创 2014-07-28 11:31:08 · 6570 阅读 · 0 评论