scrapy环境搭建(一)-linux

本文提供在Redhat6.5系统中安装Scrapy爬虫框架的详细步骤,包括环境依赖配置、Python版本升级、安装setuptools与pip等必备组件,最后完成Scrapy的安装。

系统环境:Redhat6.5系统

1、添加scrapy环境依赖

yum install -y python-devel libxml2 zlib-devel bzip2-devel xz-libs xz wget git tar gcc gcc-c++ openssl openssl-devel pcre-devel python-devel libevent automake autoconf libtool make git sqlite-devel
2、升级python

Redhat6.5 自带python2.6.6,scrapy最新版基于python2.7,需升级到python2.7.12

可到 https://www.python.org/ftp/python/2.7.12/Python-2.7.12.tgz 下载

解压并安装

wget https://www.python.org/ftp/python/2.7.12/Python-2.7.12.tgz
tar -xvf Python-2.7.12.tar
cd Python-2.7.12
./configure --prefix=/usr/local/python2.7.12
make && make install

 修改系统默认python为最新安装版本

mv /usr/bin/python /usr/bin/python2.6.6
ln -s /usr/local/python2.7.12/bin/python2.7 /usr/bin/python

 使用最新版python可能会导致系统的yum功能出现故障,需恢复yum的python指向

vim /usr/bin/yum  
将
#!/usr/bin/python
修改为
#!/usr/bin/python2.6.6

 3、安装setuptools

在 https://pypi.python.org/ 网站上搜索 setuptools 的安装包,本人下载安装的是 setuptools-26.0.0.tar.gz

解压后安装

cd setuptools-26.0.0
python setup.py install

 4、安装pip

在 https://pypi.python.org/ 网站上搜索 pip 的安装包,本人下载安装的是 pip-8.1.2.tar.gz

解压后安装

cd pip-8.1.2
python setup.py install

 5、设置python的命令直接使用

vim /etc/profile
添加python的路径
export PATH=$HOME/bin:/usr/local/python2.7.12/bin:/usr/local/bin:$PATH

修改完毕后重新加载生效
source /etc/profile

 6、安装scrapy

pip install Scrapy

 至此scrapy就可以使用了。

 

 

### 安装和配置Scrapy框架 #### 支持的操作系统 Scrapy支持多种主流操作系统,包括Windows、macOS以及Linux。对于每种不同的操作系统,在安装过程中可能会遇到些特定的情况。 #### Python环境准备 为了确保能够顺利安装Scrapy,建议先确认本地已正确安装Python版本(推荐使用Python 3.6及以上),并设置好pip工具以便后续操作[^1]。 #### Windows平台下的安装过程 在Windows环境下,可以通过命令提示符执行以下指令来完成Scrapy的安装: ```bash pip install scrapy ``` 需要注意的是,在某些情况下可能还需要额外安装Microsoft Visual C++ Build Tools以满足编译依赖的需求[^4]。 #### macOS平台上的安装方法 针对macOS用户来说,除了通过pip直接安装外,也可以利用Homebrew包管理器来进行更便捷的操作: ```bash brew install python pip install scrapy ``` 这能有效简化整个流程,并减少可能出现的问题[^2]。 #### Linux发行版中的应用实例 大多数现代Linux发行版自带了较新的Python解释器,默认仓库里也包含了Scrapy软件包;不过出于稳定性和兼容性的考虑,仍然推荐采用pip方式更新至最新发布版本: ```bash sudo apt-get update && sudo apt-get upgrade -y pip install --upgrade pip setuptools wheel pip install scrapy ``` 上述步骤适用于Debian及其衍生系列如Ubuntu等常用桌面级Linux系统[^3]。 #### 配置Settings.py文件 无论在哪种平台上成功安装完毕之后,都需要进入项目的根目录找到`settings.py`文件做进步调整优化。例如,可以修改User-Agent模拟浏览器访问行为,关闭对robots.txt协议的支持等选项,具体代码片段如下所示: ```python USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' ROBOTSTXT_OBEY = False ``` 以上措施有助于提高抓取效率的同时降低被目标网站识别为恶意爬虫的风险。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值