爬虫实战01--小说
01、运行环境
# 操作系统:win10 专业版
pycharm professional 2019.1
python 3.8
beautifulsoup4 == 4.9.0
requests == 2.23.0
random # 内置的
02、开始爬虫
02-1、分析要点
对于其他就两个点,就是首先获取页面,进而获取页面内的内容
02-1-1、页面之间处理:
- 找到爬虫的第一个页面
- 找到前面一个页面和后面一个页面的规律是什么,或者,怎么从跳转到下一个页面
- 找到最后一个页面的
总的来说就是:确定开始条件和结束条件,找到跳转到下一个页面的规律!(有始有终有过程)
02-1-2、页面内内容提取
- 找到数据内容所在,(标题,内容。。。)(重点找到内容的共同之处,方便提取)
- 提取所在标签,进而提取文字
- 保存提取的数据
02-2、开始页面处理
02-2-1、文章目录链接地址:
http://www.quanben5.com/n/chuimianbuhanyangliufeng/xiaoshuo.html
这一个地址是我们要去爬取的小说的目录页面地址,这一个页面有全部我们要爬取的页面的链接地址,方便我们难道第一个页面和最后一个页面,以及页面之间的地址规律。
02-2-2、第一个页面链接地址:
# 第一个页面链接地址
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17482.html
02-2-3、第2-5个页面链接地址:
# 第二个页面链接地址:
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17483.html
# 第三个页面链接地址:
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17484.html
# 第四个页面链接地址:
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17485.html
# 第五个页面链接地址:
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17486.html
02-2-4、最后一个页面链接地址:
# 最后一个页面链接地址:
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17649.html
02-2-5、分析结果
从上面的链接地址,我们可以看出来,这一个小说的全部网页地址是从
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17482.html
到
http://www.quanben5.com/n/chuimianbuhanyangliufeng/17649.html
结束的,我们可以对比一哈,就是前面的
http://www.quanben5.com/n/chuimianbuhanyangliufeng/*****.html
都是一样的,只有最后的五个数值是不一样的,而且页面与页面之间是 +1
的变化规律,所以这样的话我们就知道了全部页面的规律和开始,结束的条件。