无需手动复制粘贴,一个Scrapy爬虫就能轻松获取起点小说信息,并存入MySQL数据库
开场白:为什么你的小说总是不够看?
你是否曾为找不到喜欢的小说而发愁?是否想过一次性获取起点中文网上所有热门小说的信息?手动一本本记录太麻烦?别担心,今天我要介绍的Scrapy爬虫框架,可以让你轻松批量获取起点小说信息,并自动保存到MySQL数据库中。
想想看,当你只需要运行一个程序,就能获取成百上千本小说的名称、作者、类型和形式,那该有多爽!不管你是想做数据分析、构建自己的小说推荐系统,还是仅仅为了方便查阅,Scrapy都能帮你实现。
第一章:准备工作——安装与配置
1.1 什么是Scrapy?
Scrapy是一个为爬取网站数据、提取结构性数据而编写的应用程序框架,它可以轻松高效地爬取web数据并从中提取结构化数据。相比自己写requests爬虫,Scrapy具有速度快、扩展性强、内置数据提取等众多优点。
1.2 安装Scrapy
打开你的终端或命令提示符,执行以下命令来安装Scrapy:
pip install scrapy
安装到的东西包括你以前安装的模块或包都在你的python->Lib->site-package里,anaconda也同理。输入scrapy version验证即可,如果显示版本号,说明安装成功。
1.3 安装MySQL相关库
为了将数据存储到MySQL数据库,我们还需要安装PyMySQL:
pip install pymysql
同时,确保你已经安装并运行了MySQL数据库,创建一个名为qidian_novel的数据库,我们将在后续步骤中使用。
第二章:创建Scrapy项目——搭建爬虫框架
2.1 创建项目
我们在资源管理器地址栏中输入'cmd',在待建工程目录中打开Terminal,按照如下输入:
scrapy startproject qidian_hot
其中qidian_hot为本次工程的名称。此时我们的目录下多了这样一组文件:
我们先看这两个:spiders文件夹:里面我们要放置爬虫源文件(自己添加自己写);settings:本次要用的配置文件。
2.2 项目结构解析
创建成功后,你会看到如下目录结构:
qidian_hot/
scrapy.cfg
qidian_hot/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
items.py:定义数据模型pipelines.py:数据处理管道,如保存到MySQLsettings.py:项目设置文件spiders/:存放爬虫文件的目录
第三章:编写爬虫——抓取起点小说信息
3.1 分析起点中文网页面
现要获取起点中文网中小说热销榜的数据(网址为https://www.qidian.com/rank/hotsales?style=1&page=1),每部小说提取内容为:小说名称、作者、类型和形式。

最低0.47元/天 解锁文章
1180

被折叠的 条评论
为什么被折叠?



