起因:
想爬取一个网站上的数据,但是这个网址不是一般的html,而是shtml,至于这两者的区别,大家可以自行百度,简单的说就是html一般都是静态网页,而shtml一般是动态网页,也就是我们在抓取的时候,不能真正得到网页上的数据,要想拿到数据,就要想别的办法,说这么多可能有点懵逼,简单例子如下:
当我们点击网页检查的时候如下所示,

可以看到很多数据都在网页上,但是当我们把这个网址作为目标网页的时候,你会发现你并不能取到数据,原因是什么呢?再当我们点击显示网页源代码的时候,会出现另外一个页面,如下所示:

我们发现一个很大的问题就是我们的数据在源代码里没有里,这也就是为什么我们明明看到数据在网页里,但是不能取到的原因,后来又发现网址的结尾是.shtml。这就更证明里源码里是不可能有数据的,因为是动态加载网页,所以为能获取数据,我们使用了一个工具就是selenium的工具,会真实打开浏览器爬取代码,效率低一些。
下面介绍一下Mac系统下 使用vs code软件来使用selenium。
1,安装selenium
Visual studio code控制台中直接输入:
python -m pip install selenium
如下图所示:

本文介绍了如何在Mac系统下,利用VS Code配合Selenium爬取动态shtml网页。首先,解释了shtml动态网页的数据获取难题,然后详细步骤包括:在VS Code中安装Selenium,验证安装成功,下载并配置ChromeDriver,添加环境变量,最后通过运行测试代码验证安装是否成功。
最低0.47元/天 解锁文章
731

被折叠的 条评论
为什么被折叠?



