徒手搭建云服务器部署scrapy爬虫全过程

本文介绍如何在阿里云ECS上部署并运行Scrapy爬虫项目,包括服务器购买配置、Python及MongoDB安装、爬虫文件上传与定时任务设置等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.到阿里云注册账号,购买ECS云服务器(我用的是轻量应用服务器),选择系统镜像(我用ubuntu16.04),启动服务器,注意要设置密码,记住密码,以后访问是会用到公网IP 和密码.

2.进入远程服务器,最方便的方法就是在Windows或者Linux终端输入ssh 39.107.112.189 -l root ,(39.107.112,189是我的公网IP,你应该书自己买的阿里云上的公网IP),然后输入上面再阿里云设置的密码就可以进入了

3.安装python和pip,网上有教程.

4.安装MongoDB数据库的服务的和用户端,在阿里云里面要对27017端口开放防火墙,在mongod的配置文件里面修改bind-id由127.0.0.1改为0.0.0.0,目的是为了外网访问,在Linux服务器开放27017端口,过程百度.

5.安装scrapy,百度找教程.

6.将scrapy文件夹tar打包用scp远程拷贝到云服务器,进入到spider文件夹里面运行scrapy crawl ***(爬虫名).这样就可以运行爬虫了.

7.可以设置定时任务,利用Linux里面的crontab定时执行爬虫工作.操作很简单,写个shell脚本,比如

用vi写,比如vi run.sh

cd `dirname $0` || exit 1
    python ./main.py >> run.log 2>&1

然后chmod +x run.sh 添加可执行权限

然后再终端执行crontab -e

再里面设置如下:
0 6 * * * /home/ubuntu/..../myspider.sh >> /home/ubuntu/.../run2.log 2>&1

保存退出就万事大吉了.

讲的有点简略,大家不懂的地方可以取百度,网速都有步骤.

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值