
scrapy
文章平均质量分 92
iloveyin
这个作者很懒,什么都没留下…
展开
-
Scrapy系列教程(2)------Item(结构化数据存储结构)
Items爬取的主要目标就是从非结构性的数据源提取结构性数据,例如网页。 Scrapy提供 Item 类来满足这样的需求。Item 对象是种简单的容器,保存了爬取到得数据。 其提供了 类似于词典(dictionary-like) 的API以及用于声明可用字段的简单语法。声明ItemItem使用简单的class定义语法以及 Field 对象来声明。例如:原创 2014-11-20 11:00:27 · 17222 阅读 · 0 评论 -
Scrapy系列教程(6)------如何避免被禁
避免被禁止(ban)有些网站实现了特定的机制,以一定规则来避免被爬虫爬取。 与这些规则打交道并不容易,需要技巧,有时候也需要些特别的基础。 如果有疑问请考虑联系 商业支持 。下面是些处理这些站点的建议(tips):使用user agent池,轮流选择之一来作为user agent。池中包含常见的浏览器的user agent(google一下一大堆)禁止cookies(参考原创 2014-11-20 11:12:50 · 7215 阅读 · 0 评论 -
Scrapy系列教程(1)------命令行工具
默认的Scrapy项目结构在开始对命令行工具以及子命令的探索前,让我们首先了解一下Scrapy的项目的目录结构。虽然可以被修改,但所有的Scrapy项目默认有类似于下边的文件结构:scrapy.cfgmyproject/ __init__.py items.py pipelines.py settings.py spiders/原创 2014-11-20 10:52:34 · 21482 阅读 · 1 评论 -
Scrapy系列教程(3)------Spider(爬虫核心,定义链接关系和网页信息抽取)
SpidersSpider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。对spider来说,爬取的循环类似下文:以初始的URL初始化Request,并设置回调函数。 当该request下载完毕并返回时,将生原创 2014-11-20 11:03:24 · 44421 阅读 · 5 评论 -
windows 和 linux 安装 scrapyd 出现Not a directory site-packages/scrapyd-1.0.1-py2.7.egg/scrapyd/txapp.py
1 这是由于 scrapyd安装的时候没有 解压 相应的 egg而导致的文件找不到的错误。2 解决办法,找到 scrapyd-1.0.1-py2.7.egg 解压缩 里面 有一个 scrapyd的文件,拷贝到 site-packages/scrapyd-1.0.1-py2.7.egg/scrapyd/目录下即可,windows的解决办法和这个一样。原创 2014-05-23 11:57:08 · 2143 阅读 · 0 评论 -
Scrapy Callback传递多个参数方式
在scrapy提交一个链接请求是用 Request(url,callback=func) 这种形式的,而parse只有一个response参数,如果自定义一个有多参数的parse可以考虑用下面的方法实现多个参数传递。def parse(self,response): yield Request(url, callback=lambda response, typeid=5: sel原创 2014-03-18 16:48:56 · 16372 阅读 · 0 评论 -
Scrapy安装步骤及错误汇总:scrapy OpenSSL error: command ‘gcc’ failed with exit status 1
在安装scrapy出现了这个错误OpenSSL/ssl/connection.c: In function ‘ssl_Connection_set_context’: OpenSSL/ssl/connection.c:289: warning: implicit declaration of function ‘SSL_set_SSL_CTX’ OpenSSL/ssl/connec原创 2013-10-30 11:10:04 · 9794 阅读 · 0 评论