Python爬虫基础教程(59)Python Scrapy爬虫框架实战:获取起点小说信息之保存结果到MySQL:窃书不算偷?Python爬虫让你秒变起点小说收藏家

无需手动复制粘贴,一个Scrapy爬虫就能轻松获取起点小说信息,并存入MySQL数据库

开场白:为什么你的小说总是不够看?

你是否曾为找不到喜欢的小说而发愁?是否想过一次性获取起点中文网上所有热门小说的信息?手动一本本记录太麻烦?别担心,今天我要介绍的Scrapy爬虫框架,可以让你轻松批量获取起点小说信息,并自动保存到MySQL数据库中。

想想看,当你只需要运行一个程序,就能获取成百上千本小说的名称、作者、类型和形式,那该有多爽!不管你是想做数据分析、构建自己的小说推荐系统,还是仅仅为了方便查阅,Scrapy都能帮你实现。

第一章:准备工作——安装与配置

1.1 什么是Scrapy?

Scrapy是一个为爬取网站数据、提取结构性数据而编写的应用程序框架,它可以轻松高效地爬取web数据并从中提取结构化数据。相比自己写requests爬虫,Scrapy具有速度快、扩展性强、内置数据提取等众多优点。

1.2 安装Scrapy

打开你的终端或命令提示符,执行以下命令来安装Scrapy:

pip install scrapy

安装到的东西包括你以前安装的模块或包都在你的python->Lib->site-package里,anaconda也同理。输入scrapy version验证即可,如果显示版本号,说明安装成功。

1.3 安装MySQL相关库

为了将数据存储到MySQL数据库,我们还需要安装PyMySQL:

pip install pymysql

同时,确保你已经安装并运行了MySQL数据库,创建一个名为qidian_novel的数据库,我们将在后续步骤中使用。

第二章:创建Scrapy项目——搭建爬虫框架

2.1 创建项目

我们在资源管理器地址栏中输入'cmd',在待建工程目录中打开Terminal,按照如下输入:

scrapy startproject qidian_hot

其中qidian_hot为本次工程的名称。此时我们的目录下多了这样一组文件:

我们先看这两个:spiders文件夹:里面我们要放置爬虫源文件(自己添加自己写);settings:本次要用的配置文件。

2.2 项目结构解析

创建成功后,你会看到如下目录结构:

qidian_hot/
    scrapy.cfg
    qidian_hot/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
  • items.py:定义数据模型
  • pipelines.py:数据处理管道,如保存到MySQL
  • settings.py:项目设置文件
  • spiders/:存放爬虫文件的目录

第三章:编写爬虫——抓取起点小说信息

3.1 分析起点中文网页面

现要获取起点中文网中小说热销榜的数据(网址为https://www.qidian.com/rank/hotsales?style=1&page=1),每部小说提取内容为:小说名称、作者、类型和形式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

值引力

持续创作,多谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值