爬虫实战01--爬虫某某(quanben5)小说网网站小说-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_44824717/article/details/108100077

本文详细介绍了一个小说爬虫的实现过程，包括运行环境配置、页面分析、内容提取及代码实现。通过对一个具体小说网站的爬取，展示了如何获取文章标题和内容，以及如何处理页面间链接和使用代理池。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬虫实战01--小说

01、运行环境

# 操作系统：win10 专业版
pycharm professional 2019.1
python 3.8
beautifulsoup4 == 4.9.0
requests == 2.23.0
random # 内置的

02、开始爬虫

02-1、分析要点

对于其他就两个点，就是首先获取页面，进而获取页面内的内容

02-1-1、页面之间处理：

找到爬虫的第一个页面
找到前面一个页面和后面一个页面的规律是什么，或者，怎么从跳转到下一个页面
找到最后一个页面的
总的来说就是：确定开始条件和结束条件，找到跳转到下一个页面的规律！(有始有终有过程)

02-1-2、页面内内容提取

找到数据内容所在，(标题，内容。。。)(重点找到内容的共同之处，方便提取)
提取所在标签，进而提取文字
保存提取的数据

02-2、开始页面处理

02-2-1、文章目录链接地址：


http://www.quanben5.com/n/chuimianbuhanyangliufeng/xiaoshuo.html

这一个地址是我们要去爬取的小说的目录页面地址，这一个页面有全部我们要爬取的页面的链接地址，方便我们难道第一个页面和最后一个页面，以及页面之间的地址规律。

02-2-2、第一个页面链接地址：

# 第一个页面链接地址
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17482.html

02-2-3、第2-5个页面链接地址：

# 第二个页面链接地址：
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17483.html
# 第三个页面链接地址：
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17484.html
# 第四个页面链接地址：
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17485.html
# 第五个页面链接地址：
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17486.html

在这里插入图片描述

02-2-4、最后一个页面链接地址：

# 最后一个页面链接地址：
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17649.html

在这里插入图片描述

02-2-5、分析结果

从上面的链接地址，我们可以看出来，这一个小说的全部网页地址是从
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17482.html 到
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17649.html结束的，我们可以对比一哈，就是前面的
http://www.quanben5.com/n/chuimianbuhanyangliufeng/*****.html都是一样的，只有最后的五个数值是不一样的，而且页面与页面之间是 +1 的变化规律，所以这样的话我们就知道了全部页面的规律和开始，结束的条件。