Python爬虫基础教程（59）Python Scrapy爬虫框架实战：获取起点小说信息之保存结果到MySQL：窃书不算偷？Python爬虫让你秒变起点小说收藏家

最新推荐文章于 2025-11-24 15:28:47 发布

原创

最新推荐文章于 2025-11-24 15:28:47 发布 · 995 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #scrapy

无需手动复制粘贴，一个Scrapy爬虫就能轻松获取起点小说信息，并存入MySQL数据库

开场白：为什么你的小说总是不够看？

你是否曾为找不到喜欢的小说而发愁？是否想过一次性获取起点中文网上所有热门小说的信息？手动一本本记录太麻烦？别担心，今天我要介绍的Scrapy爬虫框架，可以让你轻松批量获取起点小说信息，并自动保存到MySQL数据库中。

想想看，当你只需要运行一个程序，就能获取成百上千本小说的名称、作者、类型和形式，那该有多爽！不管你是想做数据分析、构建自己的小说推荐系统，还是仅仅为了方便查阅，Scrapy都能帮你实现。

第一章：准备工作——安装与配置

1.1 什么是Scrapy？

Scrapy是一个为爬取网站数据、提取结构性数据而编写的应用程序框架，它可以轻松高效地爬取web数据并从中提取结构化数据。相比自己写requests爬虫，Scrapy具有速度快、扩展性强、内置数据提取等众多优点。

1.2 安装Scrapy

打开你的终端或命令提示符，执行以下命令来安装Scrapy：

pip install scrapy

安装到的东西包括你以前安装的模块或包都在你的python->Lib->site-package里，anaconda也同理。输入scrapy version验证即可，如果显示版本号，说明安装成功。

1.3 安装MySQL相关库

为了将数据存储到MySQL数据库，我们还需要安装PyMySQL：

pip install pymysql

同时，确保你已经安装并运行了MySQL数据库，创建一个名为qidian_novel的数据库，我们将在后续步骤中使用。

第二章：创建Scrapy项目——搭建爬虫框架

2.1 创建项目

我们在资源管理器地址栏中输入'cmd'，在待建工程目录中打开Terminal，按照如下输入：

scrapy startproject qidian_hot

其中qidian_hot为本次工程的名称。此时我们的目录下多了这样一组文件：

我们先看这两个：spiders文件夹：里面我们要放置爬虫源文件(自己添加自己写）；settings：本次要用的配置文件。

2.2 项目结构解析

创建成功后，你会看到如下目录结构：

qidian_hot/
    scrapy.cfg
    qidian_hot/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py

items.py：定义数据模型
pipelines.py：数据处理管道，如保存到MySQL
settings.py：项目设置文件
spiders/：存放爬虫文件的目录

第三章：编写爬虫——抓取起点小说信息

3.1 分析起点中文网页面

现要获取起点中文网中小说热销榜的数据（网址为https://www.qidian.com/rank/hotsales?style=1&page=1），每部小说提取内容为：小说名称、作者、类型和形式。

最低0.47元/天解锁文章