selenium 的显示等待与隐式等待

本文介绍如何使用Selenium处理动态加载的网页元素,通过显示等待和隐式等待确保元素完全加载,适用于Ajax技术构建的网站。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

现在很多的网页都采用了 Ajax 技术,那么采用一般的静态爬虫技术会出现抓取不到页面的元素。比如歌曲的主页会有评论数量,一般评论数量是动态加载的。
所以这就涉及到selenium,支持各种浏览器,包括Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那么便可以方便地实现Web界面的测试。

driver = webdriver.Chrome()
driver.get("http://somedomain/url_that_delays_loading")
driver.page_source--获取网页渲染后的源代码

获得页面元素

element = driver.find_element_by_id("passwd-id")
element = driver.find_element_by_name("passwd")
element = driver.find_elements_by_tag_name("input")
element = driver.find_element_by_xpath("//input[@id='passwd_id']")

与页面交互
element.send_keys(“text”)
element.clear()清空元素的内容
element.click()点击这个网页组件
切换窗口,一个是切换到windows下,一个是切换到frame下
driver.switch_to_window(“windowName”)
driver.switch_to_frame(“frameName.0.child”)
driver.switch_to_alert()–截取弹窗对象

我们最重要的就是了解selenium的页面等待问题

,动态加载的页面需要时间等待页面上的所有元素都渲染完成,如果在没有渲染完成之前我们就switch_to_或者是find_elements_by_,那么就可能出现元素定位困难而且会提高产生 ElementNotVisibleException 的概率。
直接找到我们要抓取的tag或者直接没有等待元素出来就开始交互导致不起作用的问题。

selenium的页面等待有显示等待和隐式等待

隐式等待
比较简单,提供一个等待时间,单位为秒,则等这个时间过去在去做其他操作。
driver.implicitly_wait(10),如果不设置默认为0

显示等待

指定某个条件,然后设置最长等待时间。如果在这个时间还没有找到元素,那么便会抛出异常。只有该条件触发,才执行后续代码,这个使用更灵活。
主要涉及到selenium.webdriver.support 下的expected_conditions类
example

driver = webdriver.Chrome()
driver.get("http://somedomain/url_that_delays_loading")
try:
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "myDynamicElement"))
    )
finally:
    driver.quit()

example2

wait_result = WebDriverWait(driver=self.driver, timeout=300, poll_frequency=0.5, ignored_exceptions=None).until( EC.text_to_be_present_in_element((By.XPATH, '//*[@id="VolumeTable"]/tbody/tr[1]/td[4]/label'), u'可用'))

这里的presence_of_element_located(())、text_to_be_present_in_element(())是其中两种方式,其实还有其他相关方式。EC配合使用的 until() 或者 until_not() 方法说明:

until(method, message='')
调用该方法体提供的回调函数作为一个参数,直到返回值为True
until_not(method, message='')
调用该方法体提供的回调函数作为一个参数,直到返回值为False

模块包含一套预定义的条件集合。大大方便了 WebDriverWait 的使用。
Expected Conditions 类提供的预期条件判断方法

在进行浏览器自动化的时候,有一些条件是经常出现的,下面列出的是每个条件的实现。Selenium Python binding provides some convienence 提供了很多实用的方法。

title_is:判断当前页面的title是否等于预期
title_contains:判断当前页面的title是否包含预期字符串
presence_of_element_located:判断某个元素是否被加到了dom树里,并不代表该元素一定可见
visibility_of_element_located:判断某个元素是否可见. 可见代表元素非隐藏,并且元素的宽和高都不等于0
visibility_of:跟上面的方法做一样的事情,只是上面的方法要传入locator,这个方法直接传定位到的element就好了
presence_of_all_elements_located:判断是否至少有1个元素存在于dom树中。举个例子,如果页面上有n个元素的class都是'column-md-3',那么只要有1个元素存在,这个方法就返回True
text_to_be_present_in_element:判断某个元素中的text是否 包含 了预期的字符串
text_to_be_present_in_element_value:判断某个元素中的value属性是否包含了预期的字符串
frame_to_be_available_and_switch_to_it:判断该frame是否可以switch进去,如果可以的话,返回True并且switch进去,否则返回False
invisibility_of_element_located:判断某个元素中是否不存在于dom树或不可见
element_to_be_clickable - it is Displayed and Enabled:判断某个元素中是否可见并且是enable的,这样的话才叫clickable
staleness_of:等某个元素从dom树中移除,注意,这个方法也是返回True或False
element_to_be_selected:判断某个元素是否被选中了,一般用在下拉列表
element_located_to_be_selected
element_selection_state_to_be:判断某个元素的选中状态是否符合预期
element_located_selection_state_to_be:跟上面的方法作用一样,只是上面的方法传入定位到的element,而这个方法传入locator
alert_is_present:判断页面上是否存在alert

参数1:By类确定哪种选择方式
from selenium.webdriver.common.by import By
参数2:值,可能是xpath的值,可能是id,name等,取决于前面是By.XPATH,By.ID究竟是哪种方式去定位元素。
可以在WebDriverWait()构造时传入下面参数,哪一个浏览器,来控制超时时间,多长时间检测一次这个元素是否加载,是否有异常报出。
driver:浏览器驱动
timeout:最长超时等待时间
poll_frequency:检测的时间间隔,默认为500ms
ignore_exception:超时后抛出的异常信息,默认情况下抛 NoSuchElementException 异常
基本的使用方法:
模块导入

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
try{
wait_result = WebDriverWait(四个参数).until( EC.条件实现((By类定位方式, 定位值), message))
}finally{
//
}

另外使用selenium会打开浏览器自动加载页面,我们需要安装用来自动化测试浏览器的插件来完成,如果不想打开网页,觉得比较麻烦,可以用

一个没界面的 PhantomJS,用 webdriver.PhantomJS()来代替webdriver.Chrome(),效率比较高

### Selenium 中显等待等待的区别 #### 显等待特性 显等待允许代码在一个特定条件下暂停执行,直到某个条件满足或超时为止。这种方更加灵活,可以针对不同的元素设置不同的等待时间,从而提高测试效率并减少不必要的延迟[^1]。 对于复杂的页面交互场景,比如异步加载的内容或者动态变化的数据,显等待能够更精准地控制等待逻辑,确保只在必要的情况下才继续下一步操作。下面是一段使用Python实现显等待的例子: ```python from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC driver.get("http://example.com") try: element = WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.ID, "myDynamicElement")) ) finally: driver.quit() ``` 这段代码会尝试查找ID为`myDynamicElement`的HTML元素,在最长不超过十秒的时间内如果找到则返回该元素对象;否则抛出异常终止程序运行。 #### 等待特点 相比之下,等待则是全局性的配置选项,一旦设定之后会对整个WebDriver实例生效。当调用find_element系列方法找不到目标节点时,它并不会立刻失败而是按照预设的最大时限持续轮询DOM树直至发现匹配项或是达到最大延时期限才会触发NoSuchElementException异常[^3]。 简单来说就是说只要设置了的超时参数,那么每次寻找单个web元素的时候都会自动应用这个默认值来决定是否应该延长搜索过程中的等待周期。这里给出一段Java版本关于如何启用等待机制的小例子: ```java public void testImplictWait() { WebDriver driver; String baseUrl = "http://www.sogou.com"; driver.get(baseUrl); driver.manage().timeouts().implicitlyWait(10, TimeUnit.SECONDS); try { WebElement searchInputBox = driver.findElement(By.id("query")); WebElement searchButton = driver.findElement(By.id("stb")); searchInputBox.sendKeys("输入框元素被成功找到了"); searchButton.click(); } catch (NoSuchElementException e) { e.printStackTrace(); } } ``` 上述案例里,通过`manage().timeouts().implicitlyWait()`函数指定了一个为期10秒钟的整体宽限期给后续所有的定位动作共享使用。 综上所述,两者各有优劣之处:显等待适用于处理个别复杂情况下的精确控制需求;而等待更适合于简化基础层面的编码工作量以及保持整体的一致性和简洁度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值