爬虫实战01--爬虫某某(quanben5)小说网网站小说

本文详细介绍了一个小说爬虫的实现过程,包括运行环境配置、页面分析、内容提取及代码实现。通过对一个具体小说网站的爬取,展示了如何获取文章标题和内容,以及如何处理页面间链接和使用代理池。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

01、运行环境

# 操作系统:win10 专业版
pycharm professional 2019.1
python 3.8
beautifulsoup4 == 4.9.0
requests == 2.23.0
random # 内置的

02、开始爬虫

02-1、分析要点

对于其他就两个点,就是首先获取页面,进而获取页面内的内容

02-1-1、页面之间处理:
  1. 找到爬虫的第一个页面
  2. 找到前面一个页面和后面一个页面的规律是什么,或者,怎么从跳转到下一个页面
  3. 找到最后一个页面的
    总的来说就是:确定开始条件和结束条件,找到跳转到下一个页面的规律!(有始有终有过程)
02-1-2、页面内内容提取
  1. 找到数据内容所在,(标题,内容。。。)(重点找到内容的共同之处,方便提取)
  2. 提取所在标签,进而提取文字
  3. 保存提取的数据

02-2、开始页面处理

02-2-1、文章目录链接地址:

http://www.quanben5.com/n/chuimianbuhanyangliufeng/xiaoshuo.html

这一个地址是我们要去爬取的小说的目录页面地址,这一个页面有全部我们要爬取的页面的链接地址,方便我们难道第一个页面和最后一个页面,以及页面之间的地址规律。

02-2-2、第一个页面链接地址:
# 第一个页面链接地址
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17482.html
02-2-3、第2-5个页面链接地址:
# 第二个页面链接地址:
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17483.html
# 第三个页面链接地址:
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17484.html
# 第四个页面链接地址:
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17485.html
# 第五个页面链接地址:
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17486.html

在这里插入图片描述

02-2-4、最后一个页面链接地址:
# 最后一个页面链接地址:
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17649.html

在这里插入图片描述

02-2-5、分析结果

从上面的链接地址,我们可以看出来,这一个小说的全部网页地址是从
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17482.html
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17649.html结束的,我们可以对比一哈,就是前面的
http://www.quanben5.com/n/chuimianbuhanyangliufeng/*****.html都是一样的,只有最后的五个数值是不一样的,而且页面与页面之间是 +1变化规律,所以这样的话我们就知道了全部页面的规律开始结束的条件。

02-2-6、获取全部页面的code

                
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值