爬虫必备 -> Selenium【详解篇】(下)

目录:

每篇前言:


  • ???作者介绍:【】— 优快云全栈领域优质创作者、HDZ核心组成员、华为云享专家Python全栈领域博主、优快云原力计划作者

  • ???本文已收录于爬虫专栏:《爬虫从入门到精通系列教程》

  • ???订阅专栏后****可加博主V信:GuHanZheCoder,进一千多人Python全栈交流群(手把手教学,问题解答); 进群可领取Python全栈教程视频 + 各类计算机书籍:基础、Web、爬虫、数据分析、可视化、机器学习、深度学习、人工智能、算法、面试题等。

  • ???加我一起学习进步,一个人可以走的很快,一群人才能走的更远!


页面等待

在Selenium操作浏览器的过程中,每一次请求url,Selenium都会等待页面加载完成以后,才会将操作权限再交给我们的程序。

但是,由于ajax和各种JS代码的异步加载问题,当一个页面被加载到浏览器时,该页面内的元素可以在不同的时间点被加载,这就使得元素的定位变得十分困难,当元素不在页面中时,使用Selenium去查找的时候会抛出ElementNotVisibleException异常。

为了解决这个问题,Selenium提供了两种等待页面加载的方式,显示等待和隐式等待,让我们可以等待元素加载完成后再进行操作,其实还有种强制等待~

分类:

  1. 强制等待
    time.sleep()
    缺点:不智能,设置的时间太短,元素还没有加载出来;设置的时间太长,浪费时间
  2. 显示等待
  3. 隐式等待
    针对元素定位,隐式等待设置了一个时间,在一段时间内判断元素是否定位成功,如果完成了,就进行下一步;在设置时间内没有定位成功,则会报超时

(1)显式等待:

  • 显式等待指定某个条件,然后设置最长等待时间,程序每隔XX时间看一眼,如果条件成立,则执行下一步,否则继续等待,直到超过设置的最长时间,然后抛出超时异常(TimeoutException)。显示等待主要使用了WebDriverWait类与expected_conditions模块。

  • 一般写法:WebDriverWait(driver, timeout, poll_frequency, igonred_exceptions).until(method, message)

    driver:传入WebDriver实例。

    timeout: 超时时间,等待的最长时间(同时要考虑隐性等待时间)

    poll_frequency: 调用until中的方法的间隔时间,默认是0.5秒

    ignored_exceptions: 忽略的异常,如果在调用until的过程中抛出这个元组中的异常,则不中断代码,继续等待

    method:可执行方法

    message: 超时时返回的信息

单独使用显示等待(需要lambda表达式):

#! python
# -*- coding: utf-8 -*-
# @Time    : 2024/10/10 66:66
# @Author  : GuHanZhe
# @File    : wait_demo.py
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait

sms_btn = WebDriverWait(driver, 30, 0.5).until(lambda dv: dv.find_element(
    By.XPATH,
    '//*[@id="app"]/div[2]/div[2]/div[3]/div[1]/div[3]'
))
sms_btn.click()

如果逻辑复杂,就可以用自定义函数:

(有的登录有图片验证码,但是图片验证码的src属性不是立马就有,是过一会才加载出现的,可以使用下述方法实现)

#! python
# -*- coding: utf-8 -*-
# @Time    : 2024/10/10 66:66
# @Author  : GuHanZhe
# @File    : wait_demo.py
import time

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait

driver = webdriver.Chrome()

driver.get('https://passport.bilibili.com/login')


def func(dv):
    print("无返回值,则间隔0.5s执行一次此函数;如有返回值,则赋值给sms_btn变量")
    tag = dv.find_element(
        By.XPATH,
        '//*[@id="app"]/div[2]/div[2]/div[3]/div[1]/div[3]'
    )
    img_src = tag.get_attribute("xxx")
    if img_src:
        return tag
    return


sms_btn = WebDriverWait(driver, 30, 0.5).until(func)
sms_btn.click()

time.sleep(250)
driver.close()
实战一:实现百度首页特定元素属性的获取
#! python
# -*- coding: utf-8 -*-
# @Time    : 2024/10/10 66:66
# @Author  : GuHanZhe
# @File    : baidu_demo.py
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait

driver = webdriver.Chrome()

url = 'https://www.baidu.com/'

driver.get(url)

WebDriverWait(driver, 20, 0.5).until(
    EC.presence_of_element_located(
        (By.LINK_TEXT, 'hao123')
    )
)
'''
参数20表示最长等待20S

参数0.5表示0.5S检查一次规定的标签是否存在

EC.presence_of_element_located(
    (By.LINK_TEXT, 'hao123')
)
EC表示要等待的条件,此处传入了presence_of_element_located这个条件,代表节点出现的意思。
其参数是节点的定位元组,也就是链接文本内容为hao123的节点。

每0.5S检查一次,通过链接文本定位标签是否存在,如果存在就向下继续执行;
如果不存在,直到20S上限就报错
'''
content = driver.find_element(By.LINK_TEXT, 'hao123').get_attribute('href')
print(content)
实战二:实现QQ空间登录
#! python
# -*- coding: utf-8 -*-
# @Time    : 2024/10/10 66:66
# @Author  : GuHanZhe
# @File    : qzone_login_demo.py
import time

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait

driver = webdriver.Chrome()

driver.get('https://qzone.qq.com/')

# 显示等待     直到登录的iframe被定位到再继续执行代码!
locator = (By.XPATH, '//div[@class="login_wrap"]/iframe')
WebDriverWait(driver=driver, timeout=5, poll_frequency=0.3, ignored_exceptions=(NoSuchElementException,)).until(
    EC.presence_of_element_located(locator), message='Not Found')
# 转到登录的iframe
fr = driver.find_element(By.XPATH, '//div[@class="login_wrap"]/iframe')
driver.switch_to.frame(fr)

driver.find_element(By.XPATH, '//*[@id="switcher_plogin"]').click()

time.sleep(1)
driver.find_element(By.XPATH, '//*[@id="u"]').send_keys('QQ号')
time.sleep(1)
driver.find_element(By.XPATH, '//*[@id="p"]').send_keys('密码')
time.sleep(1)
driver.find_element(By.ID, 'login_button').click()

time.sleep(2)

driver.quit()
expected_conditions条件:

expected_conditions是selenium的一个子模块,其中包含一系列可用于判断的条件,配合该类的方法,就能够根据条件而进行灵活地等待了~

等待条件

含义

title_is 和 title_contains

这两个条件类验证title,验证title是否等于或包含某内容

presence_of_element_located 和 presence_of_all_elements_located

这两个条件验证元素是否出现,传入的参数都是元组类型的locator,如(By.ID, ‘kw’)顾名思义,一个只要一个符合条件的元素加载出来就通过;另一个必须所有符合条件的元素都加载出来才行

visibility_of_element_located 和 invisibility_of_element_located 和 visibility_of

这三个条件验证元素是否可见,前两个传入参数是元组类型的locator,第三个传入WebElement。第一个和第三个是节点可见;第二个是节点不可见。

text_to_be_present_in_element 和 text_to_be_present_in_element_value

第一个判断某个节点文本包含某文字;第二个判断某个节点值包含某文字。一个判断元素的text,一个判断元素的value

frame_to_be_available_and_switch_to_it

加载并切换,即判断frame是否可切入,可传入locator元组或者直接传入定位方式:id、name、index或WebElement

alert_is_present

判断是否有alert出现

element_to_be_clickable

判断元素可点击,传入locator

更多详细的等待条件的参数及用法介绍可以参考官方文档:

(2)隐式等待implicitly_wait(xx)

  • 设置了一个最长等待时间,如果在规定时间内网页加载完成,则执行下一步,否则一直等到时间截止,然后执行下一步。 弊端就是程序会一直等待整个页面加载完成,就算你需要的元素加载出来了还是需要等待。也就是一般情况下你看到浏览器标签栏那个小圈不再转,才会执行下一步, 隐性等待对整个driver的周期都起作用,所以只要设置一次即可,隐性等待和显性等待可以同时用,但要注意:等待的最长时间取两者之中的大者,默认等待时间为0。
实战一:实现获取百度首页特定元素的属性
#! python
# -*- coding: utf-8 -*-
# @Time    : 2024/10/10 66:66
# @Author  : GuHanZhe
# @File    : bd_login_demo.py
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()

url = 'https://www.baidu.com/'

# 设置之后的所有元素定位操作都有最大等待时间10S,在10S内会定期进行元素定位,超时则抛出找不到节点的异常
# 换句话说,当查找节点而节点并没有立即出现的时候,隐式等待将等待一段时间再查找DOM,默认的时间是0。
driver.implicitly_wait(10)
driver.get(url)

el = driver.find_element(By.XPATH, '//*[@id="lg"]/img[1]')
print(el)

(3)强制等待:

强制等待就是不论如何,在此处都需要阻塞等待一段时间,即time.sleep()

进阶:手动实现页面等待:

原理:

  • 利用强制等待和显示等待的思路来手动实现:不停的判断或有次数限制的判断某一标签对象是否加载完毕/是否存在。
实战一:实现通过淘宝网页自动向下滚动,以获取特定元素属性
# -*- coding: utf-8 -*-
# @Time    : 2024/10/10
# @Author  : GuHanZhe
# @File    : bd_login_demo.py

import time

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.common.by import By


def wait_for_element(driver, xpath, max_attempts=30, interval=0.5):
    """
    手动实现显式等待:等待目标元素加载完成或存在。
    :param driver: WebDriver 实例
    :param xpath: 目标元素的 XPATH
    :param max_attempts: 最大尝试次数
    :param interval: 每次尝试的间隔时间(秒)
    :return: 返回找到的元素或 None
    """
    for attempt in range(max_attempts):
        try:
            element = driver.find_element(By.XPATH, xpath)
            if element.is_displayed():
                print(f"[INFO] 元素找到: {xpath} (尝试次数: {attempt + 1})")
                return element
        except NoSuchElementException:
            pass
        time.sleep(interval)
    print(f"[ERROR] 元素未找到: {xpath} (最大尝试次数: {max_attempts})")
    return None


def main():
    driver = webdriver.Chrome()
    driver.get('https://www.taobao.com')

    target_xpath = '/html/body/div[12]/div/div/h3'

    element = wait_for_element(driver, target_xpath, max_attempts=30, interval=1)

    if element:
        print(f"目标元素文本: {element.text}")
    else:
        print("目标元素未找到,操作结束。")

    driver.quit()


if __name__ == "__main__":
    main()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值