
爬虫-scrapy
Captain_zp
扎根于土地,有志于学!
展开
-
爬虫-libxm2安装
1.autoscan (autoconf): 扫描源代码以搜寻普通的可移植性问题,比如检查编译器,库,头文件等,生成文件configure.scan,它是configure.ac的一个雏形。2.aclocal (automake):根据已经安装的宏,用户定义宏和acinclude.m4文件中的宏将configure.ac文件所需要的宏集中定义到文件 aclocal.m4中。aclocal是一个原创 2015-11-26 15:52:16 · 1104 阅读 · 0 评论 -
scrapy爬虫之Image Pipeline
使用媒体管道(Media Pipleline)过滤小图片当我们用图片管道时,通过声明可允许的最小尺寸(设置IMAGES_MIN_HEIGHT和IMAGES_MIN_WIDTH),过滤太小的图片。例如:IMAGE_MIN_HEIGHT = 110IMAGE_MIN_WIDTH = 110注意:这些尺寸的限制不会影响缩略图生成默认情况下,没有限制,所有的图片都会被处原创 2016-02-19 10:29:00 · 5555 阅读 · 0 评论 -
scrapy爬虫之错误 No module named PIL + IOError:decoder jpeg not available +PIL的安装
Scrapy遇到错误,发现少一个包PIL。PIL的下载地址。tar zxvf Imaging-1.1.7.tar.gzcd Imaging-1.1.7python setup.py install原创 2016-02-19 16:33:27 · 2685 阅读 · 0 评论 -
scrapy爬虫之sublime Text 2在ubuntu下的安装
以Sublime Text 2为例:原创 2015-08-27 11:23:29 · 1447 阅读 · 0 评论 -
scrapy爬虫之Spider
Spiderclassscrapy.spider.Spider这是最简单的爬虫基类,无论是Scrapy自带的其他爬虫还是我们自己写的爬虫,都必须继承该基类,它没有提供任何特殊的功能,它只是提供了属性(string类型):name [必选项] 属性(list类型):start_urls [可选项]方法:start_requests():该方法默原创 2016-03-14 16:06:38 · 942 阅读 · 0 评论 -
scrapy爬虫之Item Pipeline
当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。每个Item Pipeline组件(有时呈)以下是item pipeline的一些典型应用:清理HTML数据验证爬取的数据(检查item包含某些字段)查重(并丢弃)将爬取结果保存到数据库写你自己的item pipeline(item组件)原创 2016-03-14 16:07:28 · 1209 阅读 · 0 评论