linux下scrapy环境搭建

最新推荐文章于 2023-05-16 14:55:09 发布

原创

最新推荐文章于 2023-05-16 14:55:09 发布 · 565 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#scrapy

本文详细介绍了在Ubuntu 14.04系统中如何安装Scrapy 1.0.5、解决依赖问题，以及安装MongoDB 3并进行权限设置。内容包括MongoDB的安装、用户权限管理、设置守护进程，Scrapy爬虫的编写，以及如何将爬虫结果存储到MongoDB，并通过crontab设置定时任务。

最近使用scrapy做数据挖掘，使用scrapy定时抓取数据并存入MongoDB，本文记录环境搭建过程以作备忘
OS:ubuntu 14.04 python:2.7.6 scrapy:1.0.5 DB:MongoDB 3
ps.ubuntu14.04内置python2.7，因此python及pip安装不再赘述。

一.安装scrapy
　　pip install Scrapy
　　由于scrapy相关依赖较多，因此在安装过程中可能遇到如下问题：
１．ImportError: No module named w3lib
解决：pip install w3lib　
　　２．ImportError: No module named twisted
　　　　解决：pip install twisted
　　３．ImportError: No module named lxml.html
　　　　解决：pip install lxml
　　４．error: libxml/xmlversion.h: No such file or directory
　　　　解决：apt-get install libxml2-dev libxslt-dev
　　　　　　　apt-get install python-lxml
　　５．ImportError: No module named cssselect
　　　　解决：pip install cssselect
　　６．ImportError: No module named OpenSSL
　　　　解决：pip install pyOpenSSL
　　以上基本涵盖安装过程中可能出现的依赖问题，如有遗漏待发现后补充
　　
　　使用scrapy –version 如显示出版本信息则安装成功