爬虫服务器环境部署

部署运行你感兴趣的模型镜像

 安装python

首先要升级python版本到2.7.12

1.下载安装包

wget  https://www.python.org/ftp/python/2.7.12/Python-2.7.12.tar.xz

xz -d  Python-2.7.12.tar.xz

tar -xvf Python-2.7.12.tar.xz

cd Python-2.7.12

./configure

make

make install

2.备份老python,建立软链接

mv /usr/bin/python /usr/bin/python2.7.5

ln -s /usr/local/bin/python2.7 /usr/bin/python

 

3.升级python以后yum的使用可能会受到影响,需要进行一下设置

vi /usr/libexec/urlgrabber-ext-down

vi /usr/bin/yum  

找到第一行#!/usr/bin/python 改为 #!/usr/bin/python2.7.5

 

安装 scrapy

1.首先准备环境
yum install gcc libffi-devel openssl-devel libxml2 libxslt-devel libxml2-devel python-devel -y

 

2.安装easy_install
yum install python-setuptools

 

3.安装pip
easy_install pip

 

4.安装 lxml
easy_install lxml

 

5.安装scrapy
pip install scrapy

 

安装selenium

pip install -U selenium

 

 安装 fontconfig

yum install fontconfig

您可能感兴趣的与本文相关的镜像

Python3.9

Python3.9

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

### 一、准备工作:服务器和SSH连接 1. 在开始部爬虫程序之前,需要先准备一台远程服务器。以阿里云为例,可以购买ECS(Elastic Compute Service)实例[^1]。选择适合的配置,例如CentOS或Ubuntu系统。 2. 开通服务器的端口访问权限,确保所需的端口(如22端口用于SSH连接)在安全组规则中允许访问[^1]。 3. 使用SSH工具登录服务器。推荐使用Xshell,它是一款功能强大的终端模拟器,支持SSH连接。配置Xshell时,输入服务器的IP地址、端口、用户名和密码即可连接。 4. 如果需要传输文件,可以使用Xftp,它与Xshell配套使用,支持SFTP协议,能够方便地将本地文件上传到服务器[^1]。 ### 二、部爬虫程序到服务器 1. 将本地的爬虫代码上传到服务器。可以使用Xftp将代码文件上传到服务器指定的目录,或者使用Git进行版本控制和代码部。 2. 确保服务器上已安装Python环境。如果未安装,可以通过包管理工具(如yum或apt-get)进行安装。 3. 安装必要的Python依赖库。使用pip安装所需的库,例如`pip install requests`或`pip install scrapy`等[^2]。 4. 运行爬虫程序。可以直接在终端中执行Python脚本,例如`python spider.py`。如果希望爬虫定时运行,可以使用cron定时任务[^1]。 5. 如果需要将爬虫封装为服务接口,可以使用Flask或Django等框架创建Web服务。启动服务后,其他用户可以通过HTTP请求调用接口获取数据。 ### 三、通过SSH进行远程操作 1. 使用SSH连接到服务器后,可以在终端中执行各种Linux命令,例如查看文件、编辑文件、运行程序等。 2. 可以使用`nohup`命令让爬虫在后台运行,即使断开SSH连接,爬虫仍然继续执行。例如`nohup python spider.py &`。 3. 如果需要实时查看爬虫的运行日志,可以使用`tail -f nohup.out`命令查看输出日志。 4. 为了提高安全性,建议配置SSH密钥登录,避免每次登录都需要输入密码。生成SSH密钥对后,将公钥添加到服务器的`~/.ssh/authorized_keys`文件中[^1]。 ### 四、常见问题及解决方案 1. **SSH连接失败**:检查服务器的IP地址、端口是否正确,以及安全组规则是否允许SSH端口(默认为22)的入站连接。 2. **爬虫运行失败**:检查Python环境和依赖库是否安装正确,确认爬虫代码中没有语法错误或逻辑问题。 3. **端口冲突**:如果爬虫服务使用的端口已被占用,可以修改服务的端口号或终止占用端口的进程。 4. **权限不足**:如果在执行某些命令时提示权限不足,可以使用`sudo`命令提升权限,或者修改文件或目录的权限。 ```bash # 示例:使用nohup运行爬虫并在后台执行 nohup python spider.py & # 查看nohup输出日志 tail -f nohup.out ``` ###
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值