部署爬虫项目

第一步 安装scrapyd  在建立的虚拟环境中安装 pip install scrapyd

退出虚拟环境中的是deactivate

第二部:pip install scrapyd-client  这个不需要进入虚拟环境 

第三部 cd 到当前项目目录下

         将deploy:test

           下面的url打开

第四部:scrapyd-deploy  

            scrapyd-deploy -l

第五步:确定scrapy list 可用

           scrapyd-deploy test -p  projectName 

第六步:查看api 使用官方给的运行就行

            使用curl 单独下载使用就行  

爬虫项目部署在Linux系统上可按以下步骤进行: ### 上传项目爬虫项目上传至Linux服务器的`opt/`目录下,可使用`rz`命令或`xftp`工具。例如,使用`rz`命令时,在服务器终端输入`rz`,会弹出文件选择窗口,选择要上传的项目文件即可。操作示例如下: ```bash [root@localhost opt]# ll drwxr-xr-x. 3 root root 40 7月 4 10:40 scrapy03 ``` ### 选择环境 大部分做爬虫时不在本地机器上运行,因为本地内存、CPU以及网速占用较高会影响爬虫效率和正常工作,且本地机器意外死机、卡死或断电等情况会使程序中断,而Linux环境在某些方面更适合爬虫或开发,所以需要选择合适的Linux环境来部署爬虫项目 [^3]。 ### 安装必要依赖 以Scrapy爬虫项目为例,若项目需要使用Chrome浏览器和Selenium,需下载安装Chrome浏览器。如果以下指令报错,可换用第二种方法下载,若使用的是Ubuntu系统,把`yum`改成`apt`指令: ```bash curl https://intoli.com/install-google-chrome.sh | bash # 此处为chrome64位版本下载链接 wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm sudo yum install ./google-chrome-stable_current_*.rpm ``` ### 启动爬虫项目上传和环境准备好后,即可启动爬虫。不同的爬虫框架启动方式可能不同,以Scrapy为例,进入项目目录后使用`scrapy crawl`命令启动爬虫 [^1]。 ### 使用Docker部署(可选) 若使用Docker部署爬虫,假设爬虫项目结构如下: ``` myproject/ ├── scrapy.cfg ├── myproject/ │ ├── __init__.py │ ├── items.py │ ├── middlewares.py │ ├── pipelines.py │ ├── settings.py │ └── spiders/ │ └── myspider.py └── Dockerfile ``` 按照Docker的相关操作流程,构建镜像并运行容器来部署爬虫 [^2]。 ### 基于Puppeteer库的Node爬虫部署配置 如果是基于Puppeteer库的Node爬虫,需要进行特定的配置,例如在配置文件中添加以下内容: ```ini [google-chrome] name=google-chrome baseurl=http://dl.google.com/linux/chrome/rpm/stable/$basearch enabled=1 gpgcheck=1 gpgkey=https://dl-ssl.google.com/linux/linux_signing_key.pub ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值