
Python
文章平均质量分 69
曾是土木人
这个作者很懒,什么都没留下…
展开
-
Python:Scrapy Shell的使用教程
sss原创 2014-02-20 16:38:57 · 17717 阅读 · 1 评论 -
Python:使用Scrapy框架的ImagesPipeline下载图片如何保持原图片名称呢?
默认情况下,使用ImagePipeline组件下载图片的时候,图片名称是以图片URL的SHA1值进行保存的。如:图片URL:http://www.example.com/image.jpgSHA1结果:3afec3b4765f8f0a07b78f98c07b83f013567a0a则图片名称:3afec3b4765f8f0a07b78f98c07b83f013567a0a.jpg原创 2014-02-22 16:18:28 · 11603 阅读 · 2 评论 -
Python:Scrapy保存控制台信息到文本
在Windows平台下,如果想运行爬虫的话,就需要在cmd中输入:scrapy crawl spider_name这时,爬虫就能启动,并在控制台(cmd)中打印一些信息,如下图所示:但是,cmd中默认只能显示几屏的信息,其他的信息就无法看到。如果我们想查看爬虫在运行过程中的调试信息或错误信息的话,会很不方便。此时,我们就可以将控制台的信息写入的一个文本文件中去,方便我们原创 2014-02-22 12:01:03 · 9353 阅读 · 1 评论 -
Python:Scrapy框架中Item Pipeline组件(项目管道组件)的使用教程
Item Pipeline简介Item管道的主要责任是负责处理有蜘蛛从网页中抽取的Item,他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后,将被发送到Item管道,并经过几个特定的次序处理数据。每个Item管道的组件都是有一个简单的方法组成的Python类。他们获取了Item并执行他们的方法,同时他们还需要确定的是是否需要在Item管道中继续执行下一步或是直接丢弃掉不处理。原创 2014-02-20 21:01:14 · 23536 阅读 · 7 评论 -
Python线程池详细讲解
这段时间一直在做一个爬虫系统,用python和django实现。其中涉及到了多线程的问题,在后端使用一个全局的字典用来保存和识别已经运行的线程。但是觉得这样的实现不是不太舒服。于是想找到一个更好的实现,这就想到了线程池这个概念。线程池的概念是什么?在IBM文档库中这样的一段描写:“在面向对象编程中,创建和销毁对象是很费时间的,因为创建一个对象要获取内存资源或者其它更多资源。在Java中转载 2014-01-11 23:41:51 · 1750 阅读 · 0 评论 -
Python:Windows7 (64位)系统下安装Scrapy详细教程
环境Windows7 64位Python2.7.6 64位Python的安装:打开http://www.python.org/getit/releases/2.7.6/页面,下载Python-2.7.6.amd64.msi 进行安装,安装完成后,需要配置环境变量,环境变量的配置可以参考该文章测试python是否安装成功,如果python成功安装并且配置好环境变量,那原创 2014-02-18 00:45:01 · 10730 阅读 · 3 评论