目录
一、Scrapy框架简介
Scrapy 是一个快速高级的 Web 抓取和网页抓取框架,用于爬取网站并从页面中提取结构化的数据。它使用 Python 编写。Scrapy 提供了强大的工具来处理下载、解析、存储数据等操作,并且非常适合进行大规模的网络爬虫开发。
二、入门
(一) 安装
基于命令行安装
pip install scrapy
如果速度很慢的可以更换一下镜像源
(二) 基本使用
- 创建项目
scrapy startproject myproject
- 生成爬虫
- 在当前目录下输入命令,将在myproject/spider目录下创建一个名为demo的爬虫文件,并指定爬取域的范围
scrapy genspider demo "piao.qunar.com"
- 数据处理
先在items.py文件中定义你希望爬取的数据结构,然后通过pipeline.py文件定义数据的处理逻辑
- 项目参数设置
在setting文件中可以设置项目的配置,比如请求头、延迟请求时间、管道存储等等
- 爬虫
在生成的demo文件中进行数据爬取
- 运行
- demo:爬虫文件,也就是前面步骤2生成的文件</