【Python】Selenium入门与进阶网页自动化操作

原创

已于 2023-09-14 13:34:19 修改 · 1.6k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#python #selenium #自动化

于 2023-08-20 09:47:36 首次发布

本文介绍了Selenium，一个用于Web测试的工具，通过Python控制浏览器进行自动化操作。详细讲解了浏览器配置、驱动安装、元素定位方法（ID、NAME、CLASS_NAME、LINK_TEXT、PARTIAL_LINK_TEXT、TAG_NAME、XPATH、CSS_SELECTOR），以及进阶技巧如嵌套页面、窗口切换、滑动操作、鼠标动作链和键盘事件等。

1. Selenium介绍

Selenium是一个用于Web应用程序测试的工具，Selenium测试直接运行在浏览器中，就像真正的用户操作一样。支持的浏览器包括IE（7,8,9,10,11），Mozilla Chrome，Safari，Google Chrome，Opea等。最初是为网站自动化测试而开发的，就像玩游戏用的按键精灵，可以按指定的命令自动操作。

Selenium可以根据的指令让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者判断网站上某些动作是否发生等。

1.1 Selenium工作原理

如图所示，通过Python来控制Selenium，然后让Selenium控制浏览器，操控浏览器，这样就实现了使用Python间接操控的浏览器。

1.2 浏览器的配置与驱动

1.2.1 浏览器的版本号

这里选择的是电脑自带的Microsoft Edge，打开设置—关于Microsoft Edge。查看Edge的版本115.0.1901.203。

1.2.2 浏览器的驱动

输入驱动器下载网址：Microsoft Edge WebDriver - Microsoft Edge Developer
根据自身浏览器版本下载对应的驱动器。

打开文件，把驱动器拖拽到PycharmProject文件夹中即可使用（这里拖拽到Python文件目录下也是可以的）

2. Selenium使用

2.1 快速入门

from selenium import webdriver

driver = webdriver.Edge()
driver.get('https://www.baidu.com/')  # 打开百度首页

driver.quit()  # 退出浏览器

2.2 元素提取

通过selenium的基本使用可以简单定位元素和获取对应的数据，以下是定位元素的方法：

find_element(By.ID, 'id属性值') # (根据id属性值获取元素)

find_element(By.NAME, 'name属性值') # (根据标签的name属性) find_element(By.CLASS_NAME, '类属性值') #（根据类名获取元素） find_element(By.LINK_TEXT, '标签文本') #（根据标签的文本获取元素，精确定位） find_element(By.PARTIAL_LINK_TEXT, '标签文本') #（根据标签包含的文本获取元素，模糊定位）

find_element(By.TAG_NAME, '标签名') #(根据标签名获取元素)

find_element(By.XPATH, 'xpath语法') #（根据xpath获取元素） find_element(By.CSS_SELECTOR, 'css语法') # (根据css选择器获取元素)

find_element只会查找页面中符合条件的第一个节点，并返回。如果想获取多个元素可以在element后面加s，这样返回的是列表。