本文要实现的案例是通过 requests
库抓取 斗破小说网 上指定的小说的目录和每一节的完整内容(只保留纯文本内容)。当抓取包含目录和小说内容的页面后,会通过正则表达式分析 HTML
代码,并提取出目录标题,对应的 url
以及文本形式的小说内容。现在进入斗破小说网,选择一篇小说,本文选择了 斗破苍穹 目录页面如下图所示:

真是岁月催人老呀,怀念当年偷偷捂着被子,逃课看这本小说的年纪。这部小说的目录很多,我只截图了一部分,第一个任务要完成下载这个目录页面的代码,并从中提取出小说的目录以及对应的 URL
。在网页中按 F12
或者是 检查
调出控制台调试界面,如下图所示: