
scrapy-爬虫
loguat
每天进步一点。
展开
-
用scrapy写爬虫 显示 Filtered offsite request to 错误.
爬电源网公司信息,无法爬取。 查看控制台发现报如下错误: DEBUG: Filtered offsite request to ‘product.dianyuan.com’: 果断上网百度 ,找到答案 。官方对这个的解释,是你要request的地址和allow_domain里面的冲突,从而被过滤掉。可以停用过滤功能。 yield Request(url, callback=self.原创 2017-05-20 11:45:17 · 665 阅读 · 0 评论 -
Centos下装Python+Scrapy
我的版本centos6.5,其他版本没试过,应该差不多。 首先确保电脑能上网喔!安下面步骤直接复制粘贴就行。1.#su – root2.#yum install gcc zlib-devel bzip2-devel openssl-devel ncurses-devel libffi-devel libxslt-devel libxml2-devel sqlite-devel3.#cd /us原创 2017-05-24 17:03:47 · 780 阅读 · 0 评论 -
centos安装MySQLdb,及相关问题解决方法
centos环境Python的MySQLdb安装问题稍多点,整理一下,也方便自己以后查看。1.#sudo yum install gcc-c++(使用sudo yum install gcc-c++时会自动安装/升级gcc及其他依赖的包。)2.#wget http://sourceforge.net/projects/mysql-python/files/mysql-python/1.2.3/M原创 2017-06-01 13:36:49 · 512 阅读 · 0 评论 -
scrapy-splash爬取JS生成的动态页面
利用scrapy-splash爬取JS生成的动态页面 目前,为了加速页面的加载速度,页面的很多部分都是用JS生成的,而对于用scrapy爬虫来说就是一个很大的问题,因为scrapy没有JS engine,所以爬取的都是静态页面,对于JS生成的动态页面都无法获得。解决方案:利用第三方中间件来提供JS渲染服务: scrapy-splash 等。 利用webkit或者基于webkit库 Splash原创 2017-06-06 10:14:29 · 1176 阅读 · 0 评论 -
Scrapy-redis改造scrapy实现分布式多进程爬取
一.基本原理: Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule),并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码,将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。 参考Scrapy-Redis原创 2017-06-21 16:54:44 · 10576 阅读 · 0 评论 -
给Scrapy添加代理
给请求添加代理有2种方式,第一种重写start_request方法,第二种是添加download中间件。下面分别介绍这2种方式。 一.重写start_request方法 比较简单,只是在meta中加了一个proxy代理。然后可以测试了,那么问题来了,我怎么知道我的请求是否带上了代理呢?可以在测试的时候去爬 "http://ip.filefab.com/index.php" 这个网站,它会显示原创 2017-07-07 17:10:29 · 10713 阅读 · 0 评论