4. 编写你的第一个Scrapy爬虫
在本篇文章中,我们将开始编写一个简单的 Scrapy 爬虫,帮助你理解如何从一个网站抓取数据。我们将通过一个实际的例子,演示如何创建一个 Scrapy 爬虫,从目标网页获取信息,并将其保存到本地。
4.1 Scrapy爬虫的基本构成
Scrapy 爬虫的基本构成很简单,通常包含以下几个关键部分:
- name:爬虫的名字,用于在运行时识别。
- start_urls:起始的 URL 列表,爬虫从这些 URL 开始抓取。
- parse():解析函数,用于处理抓取到的响应数据,并提取我们需要的内容。
首先,我们来创建一个简单的爬虫,它从一个名为“Quotes to Scrape”的网站抓取名言和作者信息。
4.2 创建一个Scrapy爬虫
-
创建一个新的爬虫: 打开项目目录,在
spiders/
文件夹内创建一个新的爬虫文件,命名为quotes_spider.py
。 -
定义爬虫类: 在文件中编写以下内容:
import scrapy
class QuotesSpider(scrapy.Spider):
name = 'quotes' # 爬虫的名称