
Scrapy
文章平均质量分 68
young-hz
人生好比一场70年代的拳击比赛,充满了躲闪与出拳,如果足够幸运,只需一次机会一个重拳而已。但首要条件是,你必须顽强地站着,挺住意味着一切。
展开
-
PYTHON风格规范——Google 开源项目风格指南
Python风格规范分号Tip不要在行尾加分号, 也不要用分号将两条命令放在同一行.行长度Tip每行不超过80个字符例外:长的导入模块语句注释里的URL不要使用反斜杠连接行.Python会将 圆括号, 中括号和花括号中的行隐式的连接起来 , 你可以利用这个特点. 如果需要, 你可以在表达式外围增加一对额转载 2014-06-26 08:49:58 · 5860 阅读 · 0 评论 -
已将GitHub scrapy-redis库升级,使其兼容最新版本Scrapy
1.代码升级之前的问题:随着Scrapy库的流行,scrapy-redis作为使用redis支持分布式爬取的工具,也不断的被大家发现。但是,使用过程中你会发现的问题是由于scrapy-redis是基于较老版本的Scrapy,所以当你使用的是新版本的Scrapy时,不可避免的会出现警告,甚至错误。关于这个问题,我总结之后在scrapy-redis库中提了出来并开了issue和作者做了原创 2014-09-07 16:19:31 · 7035 阅读 · 2 评论 -
资料整理
scrapy:(1)http://my.oschina.net/u/1024140/blog/原创 2014-07-28 15:00:48 · 4536 阅读 · 0 评论 -
scrapy爬取深度设置
通过在settings.py中设置DEPTH_LIMIT的值可以限制爬取深度,这个深度是与start_urls中定义url的相对值。也就是相对url的深度。例如定义url为:http://www.domz.com/game/,DEPTH_LIMIT=1那么限制爬取的只能是此url下一级的网页。如图:原创 2014-07-28 10:55:05 · 18428 阅读 · 1 评论 -
怎样编写scrapy扩展
原创文章,链接:在scrapy使用过程中,很多情况下需要根据实际需求定制自己的扩展,小到实现自己的pipelines,大到用新的scheduler替换默认的scheduler。扩展可以按照是否需要读取crawler大致分为两种,对于不需要读取的,比如pipelines的编写,只需要实现默认的方法porcess_item。需要读取的,如scheduler的编写又存在另外的方式。原创 2014-07-28 11:14:19 · 8202 阅读 · 1 评论 -
Scrapy研究探索(一)——基础入门
一.Scrapy介绍二.知识准备三.原创 2014-06-19 20:52:32 · 33835 阅读 · 0 评论 -
scrapy研究探索(二)——爬w3school.com.cn
下午被一个问题困扰了好一阵,最终使用另一种方式解决。 开始教程二,关于Scrapy安装、介绍等请移步至教程(一)(http://blog.youkuaiyun.com/u012150179/article/details/32343635)。 在开始之前假设你已经成功安装一切所需,整怀着一腔热血想要抓取某网站。一起来have a try。 1. 前期基础准备。 Oh,不能在准备了,直接来。 (1)原创 2014-06-21 09:50:13 · 49093 阅读 · 21 评论 -
Scrapy研究探索(六)——自动爬取网页之II(CrawlSpider)
一.目的。在教程(二)(http://blog.youkuaiyun.com/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构,在pipelines.py中实现获得数据的过滤以及保存。但是以上述方法只能爬取start_url列表中的网页,而网络爬虫如google等搜索引擎原创 2014-06-26 21:31:17 · 49275 阅读 · 4 评论 -
Scrapy研究探索(三)——Scrapy核心架构与代码运行分析
学习曲线总是这样,简单例子“浅尝”,在从理论+实践慢慢攻破。理论永远是基础,切记“勿在浮沙筑高台”。一. 核心架构关于核心架构,在官方文档中阐述的非常清晰,地址:http://doc.scrapy.org/en/latest/topics/architecture.html。英文有障碍可查看中文翻译文档,笔者也参与了Scraoy部分文档的翻译,我的翻译GitHub地址:http原创 2014-06-25 16:37:11 · 24208 阅读 · 2 评论 -
Scrapy研究探索(四)——中文输出与中文保存
提取网页中中文并输出或者是保存时经常会吃原创 2014-06-25 17:23:23 · 23043 阅读 · 0 评论 -
Scrapy研究探索(五)——自动多网页爬取(抓取某人博客所有文章)
首先,在教程(三)()中原创 2014-06-25 20:20:23 · 52646 阅读 · 9 评论 -
关于“淘宝爆款”的数据抓取与数据分析
数据爬取爬取对象:淘宝“连衣裙 夏”的搜索结果。爬取对象的选择分析我在文章中也有提及。工具:Scrapy。Repository内容即为当时实现的代码。数据分析分析内容可见此Repository的Wiki。也可见上面问题链接。工具:ipython & matplotlib。分析内容分析内容放在了Wiki中,链接:https://github.com/you原创 2014-07-06 09:44:02 · 29385 阅读 · 5 评论 -
scrapy-redis实现scrapy分布式爬取分析
(1)在“http://www.zhihu.com/question/20899988”中,提到的:“那么,假设你现在有100台机器可以用,怎么用python实现一个分布式的爬取算法呢?我们把这100台中的99台运算能力较小的机器叫作slave,另外一台较大的机器叫作master,那么回顾上面代码中的url_queue,如果我们能把这个queue放到这台master机器上,原创 2014-07-22 20:19:51 · 8374 阅读 · 0 评论 -
Scrapy研究探索(七)——如何防止被ban之策略大集合
话说在尝试设置download_delay小于1,并且无任何其他防止被ban的策略之后,我终于成功的被ban了。如下:敌退我进,敌攻我挡。本篇博客主要研究使用防止被ban的几大策略以及在scrapy中的使用。1.策略一:设置download_delay这个在之前的教程中已经使用过(http://blog.youkuaiyun.com/u012150179/article原创 2014-06-29 10:45:54 · 43585 阅读 · 3 评论