《解析Python网络爬虫 核心技术、Scrapy框架、分布式爬虫》【作者】黑马程序员编著,书中有以下一段话:


找个真实的网页,看一看就明白了。比如:
https://www.toutiao.com/search/?keyword=风景
点击上面的网页,能够看到网址不变,但是下拉的时候,会不断加载页面(也就是实现了翻页的功能)
——所以重点来了,要实现 这种网页的爬虫, 你必须知道它是怎么实现翻页的,不然你只能requests.get()得到如下的源代码,重要的信息一个看不到,真是一点用都没有,如下图:

——所以有必要使用selenuim,同志们!!!
先研究一下如何翻页的。
那要看看它是怎么翻页的?步骤如下:

本文通过分析《解析Python网络爬虫》书中的一段内容,揭示了为何在爬取某些动态加载页面时需要使用Selenium。以 Toutiao 搜索为例,通过查看网页源代码、对比offset变化,发现offset是控制翻页的关键。通过Selenium模拟用户行为,可以有效抓取此类页面的数据。
最低0.47元/天 解锁文章
2204

被折叠的 条评论
为什么被折叠?



