我练习了5个静态页面的小说网站,发现静态小说网站的爬虫整体套路都是差不多的;
一般都是相似的嵌套结构:
小说列表(一共有多少页小说)—(选中一页,然后点进去)–>
一页小说(每页包含多少个小说条目)—(选中一个条目,然后点进去)–>
一本具体的小说:1)直接在该页面爬取小说相关信息 2)可以下载的小说则可以直接进入下载页面,然后下载到本地;只能在线阅读的小说则需要分别爬取每一页的内容,然后组合成一本完整的小说,然后保存到本地。
下面用图片来解释嵌套结构:
以https://www.bookbao99.net/List 书包网为例(该网站2023年过期):
第一层一共有多少个页面(这里是16344页)

**第二层:**每一页有多少个小说条目(这里每页有24个条目)

第三层:一本具体的小说的页面

小说页面所包含的我们感兴趣的信息

从下载页面获取对应的下载链接

用图片演示完了嵌套结构,我们用代码大致演示一下嵌套结构(注意:这不是实际代码,只是代码的大致结构):

讲完了整体架构我们就来讲解细节的页面信息爬取(实际代码节选,即简明扼要的节选了少许代码,并不完整)
第一层:
首先是页面的编号规律,这需要我们切换页面时仔细观察地址栏的url变化,从中找出规律:
我们需要仔细观察第一层的页面编号规律:
p,t,c,o四个字母
P:代表page(第x页就是 p_x)
t:代表时间(今日上传的,本周上传的,本月上传的)
c:代表小说类别(所有类别,言情,穿越等等)
o:代表排序规则
举个例子:

本文介绍了静态小说网站的爬虫整体架构,包括小说列表、小说条目和具体小说页面的爬取步骤。通过示例网站解释了页面编号规律,并展示了如何处理小说信息和下载链接。对于不能直接下载的小说,文章提到了在线阅读内容的抓取策略。
最低0.47元/天 解锁文章
527

被折叠的 条评论
为什么被折叠?



