
python
loguat
每天进步一点。
展开
-
Centos装完MySQL模块后还是报 No module named MySQLdb错误
我yum,安装MySQL-python模块很简单: # yum install MySQL-python -y 可是执行Scrapy爬虫时依然报 No module named MySQLdb经过一番搜索终于找到问题: 没有安装Python连接MySQL的模块# easy_install MySQL-python完美解决!原创 2017-05-24 17:24:54 · 2335 阅读 · 0 评论 -
用scrapy写爬虫 显示 Filtered offsite request to 错误.
爬电源网公司信息,无法爬取。 查看控制台发现报如下错误: DEBUG: Filtered offsite request to ‘product.dianyuan.com’: 果断上网百度 ,找到答案 。官方对这个的解释,是你要request的地址和allow_domain里面的冲突,从而被过滤掉。可以停用过滤功能。 yield Request(url, callback=self.原创 2017-05-20 11:45:17 · 667 阅读 · 0 评论 -
Centos下装Python+Scrapy
我的版本centos6.5,其他版本没试过,应该差不多。 首先确保电脑能上网喔!安下面步骤直接复制粘贴就行。1.#su – root2.#yum install gcc zlib-devel bzip2-devel openssl-devel ncurses-devel libffi-devel libxslt-devel libxml2-devel sqlite-devel3.#cd /us原创 2017-05-24 17:03:47 · 783 阅读 · 0 评论 -
centos安装MySQLdb,及相关问题解决方法
centos环境Python的MySQLdb安装问题稍多点,整理一下,也方便自己以后查看。1.#sudo yum install gcc-c++(使用sudo yum install gcc-c++时会自动安装/升级gcc及其他依赖的包。)2.#wget http://sourceforge.net/projects/mysql-python/files/mysql-python/1.2.3/M原创 2017-06-01 13:36:49 · 513 阅读 · 0 评论 -
CentOS 6.5安装LAMP,并开启MySQL远程访问
准备: 1、配置防火墙,开启80端口、3306端口vi /etc/sysconfig/iptables-A INPUT -m state --state NEW -m tcp -p tcp --dport 80 -j ACCEPT #允许80端口通过防火墙-A INPUT -m state --state NEW -m tcp -p tcp --dport 3306 -j ACCEPT #允许原创 2017-06-01 16:15:30 · 808 阅读 · 0 评论 -
scrapy-splash爬取JS生成的动态页面
利用scrapy-splash爬取JS生成的动态页面 目前,为了加速页面的加载速度,页面的很多部分都是用JS生成的,而对于用scrapy爬虫来说就是一个很大的问题,因为scrapy没有JS engine,所以爬取的都是静态页面,对于JS生成的动态页面都无法获得。解决方案:利用第三方中间件来提供JS渲染服务: scrapy-splash 等。 利用webkit或者基于webkit库 Splash原创 2017-06-06 10:14:29 · 1177 阅读 · 0 评论 -
Scrapy-redis改造scrapy实现分布式多进程爬取
一.基本原理: Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule),并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码,将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。 参考Scrapy-Redis原创 2017-06-21 16:54:44 · 10577 阅读 · 0 评论 -
给Scrapy添加代理
给请求添加代理有2种方式,第一种重写start_request方法,第二种是添加download中间件。下面分别介绍这2种方式。 一.重写start_request方法 比较简单,只是在meta中加了一个proxy代理。然后可以测试了,那么问题来了,我怎么知道我的请求是否带上了代理呢?可以在测试的时候去爬 "http://ip.filefab.com/index.php" 这个网站,它会显示原创 2017-07-07 17:10:29 · 10716 阅读 · 0 评论 -
搞定python多线程和多进程
1 概念梳理: 1.1 线程1.1.1 什么是线程线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。一个线程是一个execution context(执行上下文),即一个cpu执行时所需要的一串指令。1.1.2 线程的工作方式假设你正在读一本书,没有读完,你想休息一转载 2017-07-10 13:14:11 · 3959 阅读 · 1 评论