为什么要用Selenium?终于搞明白了很重要的一点

本文通过分析《解析Python网络爬虫》书中的一段内容,揭示了为何在爬取某些动态加载页面时需要使用Selenium。以 Toutiao 搜索为例,通过查看网页源代码、对比offset变化,发现offset是控制翻页的关键。通过Selenium模拟用户行为,可以有效抓取此类页面的数据。

《解析Python网络爬虫 核心技术、Scrapy框架、分布式爬虫【作者】黑马程序员编著,书中有以下一段话:

找个真实的网页,看一看就明白了。比如:

https://www.toutiao.com/search/?keyword=风景

点击上面的网页,能够看到网址不变,但是下拉的时候,会不断加载页面(也就是实现了翻页的功能)

——所以重点来了,要实现 这种网页的爬虫, 你必须知道它是怎么实现翻页的,不然你只能requests.get()得到如下的源代码,重要的信息一个看不到,真是一点用都没有,如下图:

 

——所以有必要使用selenuim,同志们!!!

先研究一下如何翻页的。

那要看看它是怎么翻页的?步骤如下:

第一步,查看网页源代码。右键检查。不断下拉,然后查看network。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值