爬虫工具及框架
scrapy
请参阅最新文档--文档1.0版
distribute_crawler
使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现, 爬虫状态显示使用graphite实现。
portia
这是一个使用Web界面的爬虫工具,也是基于Scrapy.
pyspider
可自定义脚本进行爬虫,见demo.
最佳实践
zhihu-python
获取知乎内容信息,包括问题,答案,用户,收藏夹信息 .
zhihu-spider
获取知乎最热问题—知乎Hot.
其它实践
监测她(他)的知乎
监测她(他)的知乎,她关注、回答、赞了某个问题立马电脑和手机都弹出提示.使用c#开发,详情见-- 被管理员和谐了的最高票答案“知乎数据抓取程序”.