爬虫必备 -＞ Selenium【详解篇】（下）-优快云博客

每篇前言：

???作者介绍：【】— 优快云全栈领域优质创作者、HDZ核心组成员、华为云享专家Python全栈领域博主、优快云原力计划作者

???本文已收录于爬虫专栏：《爬虫从入门到精通系列教程》

???订阅专栏后****可加博主V信：GuHanZheCoder，进一千多人Python全栈交流群（手把手教学，问题解答）； 进群可领取Python全栈教程视频 + 各类计算机书籍：基础、Web、爬虫、数据分析、可视化、机器学习、深度学习、人工智能、算法、面试题等。

???加我一起学习进步，一个人可以走的很快，一群人才能走的更远！

页面等待

在Selenium操作浏览器的过程中，每一次请求url，Selenium都会等待页面加载完成以后，才会将操作权限再交给我们的程序。

但是，由于ajax和各种JS代码的异步加载问题，当一个页面被加载到浏览器时，该页面内的元素可以在不同的时间点被加载，这就使得元素的定位变得十分困难，当元素不在页面中时，使用Selenium去查找的时候会抛出ElementNotVisibleException异常。

为了解决这个问题，Selenium提供了两种等待页面加载的方式，显示等待和隐式等待，让我们可以等待元素加载完成后再进行操作，其实还有种强制等待~

（1）显式等待：

显式等待指定某个条件，然后设置最长等待时间，程序每隔XX时间看一眼，如果条件成立，则执行下一步，否则继续等待，直到超过设置的最长时间，然后抛出超时异常（TimeoutException）。显示等待主要使用了WebDriverWait类与expected_conditions模块。
一般写法：WebDriverWait(driver, timeout, poll_frequency, igonred_exceptions).until(method, message)

driver：传入WebDriver实例。

timeout: 超时时间，等待的最长时间（同时要考虑隐性等待时间）

poll_frequency: 调用until中的方法的间隔时间，默认是0.5秒

ignored_exceptions: 忽略的异常，如果在调用until的过程中抛出这个元组中的异常，则不中断代码，继续等待

method：可执行方法

message：超时时返回的信息

单独使用显示等待（需要lambda表达式）:

#! python
# -*- coding: utf-8 -*-
# @Time    : 2024/10/10 66:66
# @Author  : GuHanZhe
# @File    : wait_demo.py
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait

sms_btn = WebDriverWait(driver, 30, 0.5).until(lambda dv: dv.find_element(
    By.XPATH,
    '//*[@id="app"]/div[2]/div[2]/div[3]/div[1]/div[3]'
))
sms_btn.click()

如果逻辑复杂，就可以用自定义函数：

（有的登录有图片验证码，但是图片验证码的src属性不是立马就有，是过一会才加载出现的，可以使用下述方法实现）

#! python
# -*- coding: utf-8 -*-
# @Time    : 2024/10/10 66:66
# @Author  : GuHanZhe
# @File    : wait_demo.py
import time

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait

driver = webdriver.Chrome()

driver.get('https://passport.bilibili.com/login')


def func(dv):
    print("无返回值，则间隔0.5s执行一次此函数；如有返回值，则赋值给sms_btn变量")
    tag = dv.find_element(
        By.XPATH,
        '//*[@id="app"]/div[2]/div[2]/div[3]/div[1]/div[3]'
    )
    img_src = tag.get_attribute("xxx")
    if img_src:
        return tag
    return


sms_btn = WebDriverWait(driver, 30, 0.5).until(func)
sms_btn.click()

time.sleep(250)
driver.close()

实战一：实现百度首页特定元素属性的获取

#! python
# -*- coding: utf-8 -*-
# @Time    : 2024/10/10 66:66
# @Author  : GuHanZhe
# @File    : baidu_demo.py
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait

driver = webdriver.Chrome()

url = 'https://www.baidu.com/'

driver.get(url)

WebDriverWait(driver, 20, 0.5).until(
    EC.presence_of_element_located(
        (By.LINK_TEXT, 'hao123')
    )
)
'''
参数20表示最长等待20S

参数0.5表示0.5S检查一次规定的标签是否存在

EC.presence_of_element_located(
    (By.LINK_TEXT, 'hao123')
)
EC表示要等待的条件，此处传入了presence_of_element_located这个条件，代表节点出现的意思。
其参数是节点的定位元组，也就是链接文本内容为hao123的节点。

每0.5S检查一次，通过链接文本定位标签是否存在，如果存在就向下继续执行；
如果不存在，直到20S上限就报错
'''
content = driver.find_element(By.LINK_TEXT, 'hao123').get_attribute('href')
print(content)

实战二：实现QQ空间登录

#! python
# -*- coding: utf-8 -*-
# @Time    : 2024/10/10 66:66
# @Author  : GuHanZhe
# @File    : qzone_login_demo.py
import time

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait

driver = webdriver.Chrome()

driver.get('https://qzone.qq.com/')

# 显示等待     直到登录的iframe被定位到再继续执行代码！
locator = (By.XPATH, '//div[@class="login_wrap"]/iframe')
WebDriverWait(driver=driver, timeout=5, poll_frequency=0.3, ignored_exceptions=(NoSuchElementException,)).until(
    EC.presence_of_element_located(locator), message='Not Found')
# 转到登录的iframe
fr = driver.find_element(By.XPATH, '//div[@class="login_wrap"]/iframe')
driver.switch_to.frame(fr)

driver.find_element(By.XPATH, '//*[@id="switcher_plogin"]').click()

time.sleep(1)
driver.find_element(By.XPATH, '//*[@id="u"]').send_keys('QQ号')
time.sleep(1)
driver.find_element(By.XPATH, '//*[@id="p"]').send_keys('密码')
time.sleep(1)
driver.find_element(By.ID, 'login_button').click()

time.sleep(2)

driver.quit()

expected_conditions条件：

expected_conditions是selenium的一个子模块，其中包含一系列可用于判断的条件，配合该类的方法，就能够根据条件而进行灵活地等待了~

等待条件

含义

title_is 和 title_contains

这两个条件类验证title，验证title是否等于或包含某内容

presence_of_element_located 和 presence_of_all_elements_located

这两个条件验证元素是否出现，传入的参数都是元组类型的locator，如(By.ID, ‘kw’)顾名思义，一个只要一个符合条件的元素加载出来就通过；另一个必须所有符合条件的元素都加载出来才行

visibility_of_element_located 和 invisibility_of_element_located 和 visibility_of

这三个条件验证元素是否可见，前两个传入参数是元组类型的locator，第三个传入WebElement。第一个和第三个是节点可见；第二个是节点不可见。

text_to_be_present_in_element 和 text_to_be_present_in_element_value

第一个判断某个节点文本包含某文字；第二个判断某个节点值包含某文字。一个判断元素的text，一个判断元素的value

frame_to_be_available_and_switch_to_it

加载并切换，即判断frame是否可切入，可传入locator元组或者直接传入定位方式：id、name、index或WebElement

alert_is_present

判断是否有alert出现

element_to_be_clickable

判断元素可点击，传入locator

更多详细的等待条件的参数及用法介绍可以参考官方文档：

https://selenium-python-zh.readthedocs.io/en/latest/api.html#module-selenium.webdriver.support.expected_conditions

（2）隐式等待implicitly_wait(xx)

设置了一个最长等待时间，如果在规定时间内网页加载完成，则执行下一步，否则一直等到时间截止，然后执行下一步。弊端就是程序会一直等待整个页面加载完成，就算你需要的元素加载出来了还是需要等待。也就是一般情况下你看到浏览器标签栏那个小圈不再转，才会执行下一步，隐性等待对整个driver的周期都起作用，所以只要设置一次即可，隐性等待和显性等待可以同时用，但要注意：等待的最长时间取两者之中的大者，默认等待时间为0。

实战一：实现获取百度首页特定元素的属性

#! python
# -*- coding: utf-8 -*-
# @Time    : 2024/10/10 66:66
# @Author  : GuHanZhe
# @File    : bd_login_demo.py
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()

url = 'https://www.baidu.com/'

# 设置之后的所有元素定位操作都有最大等待时间10S，在10S内会定期进行元素定位，超时则抛出找不到节点的异常
# 换句话说，当查找节点而节点并没有立即出现的时候，隐式等待将等待一段时间再查找DOM,默认的时间是0。
driver.implicitly_wait(10)
driver.get(url)

el = driver.find_element(By.XPATH, '//*[@id="lg"]/img[1]')
print(el)

（3）强制等待：

强制等待就是不论如何，在此处都需要阻塞等待一段时间，即time.sleep()

进阶：手动实现页面等待：

原理：

利用强制等待和显示等待的思路来手动实现：不停的判断或有次数限制的判断某一标签对象是否加载完毕/是否存在。

实战一：实现通过淘宝网页自动向下滚动，以获取特定元素属性

# -*- coding: utf-8 -*-
# @Time    : 2024/10/10
# @Author  : GuHanZhe
# @File    : bd_login_demo.py

import time

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.by import By


def wait_for_element(driver, xpath, max_attempts=30, interval=0.5):
    """
    手动实现显式等待：等待目标元素加载完成或存在。
    :param driver: WebDriver 实例
    :param xpath: 目标元素的 XPATH
    :param max_attempts: 最大尝试次数
    :param interval: 每次尝试的间隔时间（秒）
    :return: 返回找到的元素或 None
    """
    for attempt in range(max_attempts):
        try:
            element = driver.find_element(By.XPATH, xpath)
            if element.is_displayed():
                print(f"[INFO] 元素找到: {xpath} (尝试次数: {attempt + 1})")
                return element
        except NoSuchElementException:
            pass
        time.sleep(interval)
    print(f"[ERROR] 元素未找到: {xpath} (最大尝试次数: {max_attempts})")
    return None


def main():
    driver = webdriver.Chrome()
    driver.get('https://www.taobao.com')

    target_xpath = '/html/body/div[12]/div/div/h3'

    element = wait_for_element(driver, target_xpath, max_attempts=30, interval=1)

    if element:
        print(f"目标元素文本: {element.text}")
    else:
        print("目标元素未找到，操作结束。")

    driver.quit()


if __name__ == "__main__":
    main()