python_爬虫实践_（二）爬取静态小说爬虫整体架构_爬虫小说的总体设计-优快云博客

本文介绍了静态小说网站的爬虫整体架构，包括小说列表、小说条目和具体小说页面的爬取步骤。通过示例网站解释了页面编号规律，并展示了如何处理小说信息和下载链接。对于不能直接下载的小说，文章提到了在线阅读内容的抓取策略。

我练习了5个静态页面的小说网站，发现静态小说网站的爬虫整体套路都是差不多的；
一般都是相似的嵌套结构：
小说列表（一共有多少页小说）—(选中一页，然后点进去）–>
一页小说（每页包含多少个小说条目）—（选中一个条目，然后点进去）–>
一本具体的小说:1）直接在该页面爬取小说相关信息 2）可以下载的小说则可以直接进入下载页面，然后下载到本地；只能在线阅读的小说则需要分别爬取每一页的内容，然后组合成一本完整的小说，然后保存到本地。

下面用图片来解释嵌套结构：
以https://www.bookbao99.net/List 书包网为例（该网站2023年过期）：
第一层一共有多少个页面（这里是16344页）
在这里插入图片描述
**第二层：**每一页有多少个小说条目（这里每页有24个条目）

第三层：一本具体的小说的页面
在这里插入图片描述
小说页面所包含的我们感兴趣的信息

从下载页面获取对应的下载链接

在这里插入图片描述

用图片演示完了嵌套结构，我们用代码大致演示一下嵌套结构（注意：这不是实际代码，只是代码的大致结构）：
在这里插入图片描述

讲完了整体架构我们就来讲解细节的页面信息爬取（实际代码节选，即简明扼要的节选了少许代码，并不完整）

第一层：
首先是页面的编号规律，这需要我们切换页面时仔细观察地址栏的url变化，从中找出规律：
我们需要仔细观察第一层的页面编号规律:
p,t,c,o四个字母
P：代表page（第x页就是 p_x）
t：代表时间（今日上传的，本周上传的，本月上传的）
c：代表小说类别（所有类别，言情，穿越等等）
o：代表排序规则
举个例子：