Scrapy框架官方网址:http://doc.scrapy.org/en/latest
Scrapy中文维护站点:Scrapy 0.25 文档 — Scrapy 0.24.1 文档
一、Windows 安装方式
- Python 2 / 3
- 升级pip版本:
pip install --upgrade pip
- 通过pip 安装 Scrapy 框架
pip install Scrapy
二、Ubuntu 需要9.10或以上版本安装方式
- Python 2 / 3
- 安装非Python的依赖
sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
- 通过pip 安装 Scrapy 框架
sudo pip install scrapy
安装后,只要在命令终端输入 scrapy,提示类似以下结果,代表已经安装成功
具体Scrapy安装流程参考:Installation guide — Scrapy 2.11.1 documentation 里面有各个平台的安装方法
三、入门案例
学习目标
- 创建一个Scrapy项目
- 定义提取的结构化数据(Item)
- 编写爬取网站的 Spider 并提取出结构化数据(Item)
- 编写 Item Pipelines 来存储提取到的Item(即结构化数据)