本文采用Selenium库爬取携程网的景区评论。
Selenium介绍
Selenium是一个Web的自动化测试工具,可以按指定的命令自动操作,如让浏览器加载页面、获取数据、页面截屏等。Selenium本身不自带浏览器,需要与第三方浏览器结合才能使用。Selenium的核心是Webdriver
,这是一个编写指令集的接口,具有与浏览器自动化交互的特性,提供了相应的应用程序接口(Application Programming Interface)来操作浏览器。目前支持的主流浏览器内核有Firefox、Chrome、Edge等。
(一)安装Selenium
在命令窗口输入下述命令进行安装:
pip install selenium==4.3.0
(二)配置浏览器驱动
-
要安装对应版本驱动。
针对不同的浏览器,需要根据自己电脑的操作程序安装不同驱动。这里选择使用的是Chrome浏览器,通过访问网址 chrome://version/ ,得到版本是 122.0.6261.69(64 位),于是安装对应版本驱动。
注:关于selenium的具体配置可见往期推文:
-
禁止浏览器自动更新。
由于Selenium自动化操作浏览器时需要安装浏览器驱动
Webdriver
,而Webdriver
驱动需要与浏览器的对应版本一致。为避免Chrome浏览器更新后原本的程序或页面无法正常运行,可以手动关闭Chrome浏览器的自动更新。打开【cmd】->输入【services.msc】->点击两个【谷歌更新服务】->在弹出的属性页面中将【启动类型】设为【禁止】。注:可查看往期推文:
一、导入第三方库
在使用selenium.webdriver
做自动化测试时,需要经常模拟鼠标和键盘的一些动作,ActionChains
类可以模拟鼠标操作,如移动、点击、悬停等。通过Webdriver
模块中的By
类可以为