一、selenium的三种等待:
1、强制等待:不管页面是否加载出来,强制让进程等待。 time.sleep(2)
2、隐式等待:driver.implicitly_wait(20)
设置20秒的最大等待时长,他等待的结束条件是:等待到浏览器全部加载完成完成为止,全部加载可以理解为,浏览器不在装圈圈。
**弊端**:
页面的加载其实不单单是页面html,重要还有一些页面静态资源,而静态资源的加载是最耗时。这些静态资源对我们爬取数据又没什么作用,所以隐式等待其实效率并不高。
3、显示等待:满足一些内置的等待条件,这要这些条件满足,就等待结束。这些条件比如:特定页面元素加载出来。
创建显示等待的步骤:
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
1、创建wait对象:
wait = WebDriverWait(
driver = 作用的哪个驱动,
20,最大等待时长
0.5,每隔多少秒做页面扫描
)
2.在之前selenium使用步骤的等待位置:
wait.until(EC.presence_of_element_located(
locator = 定位器对象。
))—>返回值是一个webelement对象(locator对象所定位的哪个webelement)
定位器对象是一个元组。
locator = (By.xpath,‘xpath表达式’)
By.ID
By.CSS_SELECTOR
文档中
1. 强制等待
第一种也是最简单粗暴的一种办法就是强制等待sleep(xx),强制让闪电侠等xx时间,不管凹凸曼能不能跟上速度,还是已经提前到了,都必须等xx时间。
from selenium import webdriver from time import sleep driver =
webdriver.Firefox() driver.get(‘https://huilansame.github.io’)
sleep(3) # 强制等待3秒再执行下一步 print driver.current_url driver.quit()
这种叫强制等待,不管你浏览器是否加载完了,程序都得等待3秒,3秒一到,继续执行下面的代码,作为调试很有用,有时候也可以在代码里这样等待,不过不建议总用这种等待方式,太死板,严重影响程序执行速度。
2. 隐性等待
from selenium import webdriver driver = webdriver.Firefox()
driver.implicitly_wait(30) # 隐性等待,最长等30秒
driver.get(‘https://huilansame.github.io’) print driver.current_url
driver.quit()
隐形等待是设置了一个最长等待时间,如果在规定时间内网页加载完成,则执行下一步,否则一直等到时间截止,然后执行下一步。
注意这里有一个弊端,那就是程序会一直等待整个页面加载完成,也就是一般情况下你看到浏览器标签栏那个小圈不再转,才会执行下一步,但有时候页面想要的元素早就在加载完成了,但是因为个别js之类的东西特别慢,我仍得等到页面全部完成才能执行下一步,我想等我要的元素出来之后就下一步怎么办?有办法,这就要看selenium提供的另一种等待方式——显性等待wait了。
3. 显性等待
第三种办法就是显性等待,WebDriverWait,配合该类的until()和until_not()方法,就能够根据判断条件而进行灵活地等待了。它主要的意思就是:程序每隔xx秒看一眼,如果条件成立了,则执行下一步,否则继续等待,直到超过设置的最长时间,然后抛出TimeoutException。
from selenium import webdriver from selenium.webdriver.support.wait
import WebDriverWait from selenium.webdriver.support import
expected_conditions as EC from selenium.webdriver.common.by import By
driver = webdriver.Firefox()隐性等待和显性等待可以同时用,但要注意:等待的最长时间取两者之中的大者 driver.implicitly_wait(10)
driver.get(‘https://huilansame.github.io’) locator = (By.LINK_TEXT,
‘优快云’) try:
wait = WebDriverWait(driver, 20, 0.5)
wait.until(EC.presence_of_element_located(locator))
print(driver.find_element_by_link_text(‘优快云’).get_attribute(‘href’))
finally: driver.close()
4、expected_conditions
expected_conditions是selenium的一个模块,其中包含一系列可用于判断的条件: EC.title_is
EC.title_contains 这两个条件类验证title,验证传入的参数title是否等于或在driver.title中EC.presence_of_element_located((By.CSS_SELECTOR,’.ui-page > wrap’))
EC.presence_of_all_elements_located((By.CSS_SELECTOR,’.ui-page’))
这两个条件验证元素是否出现,传入的参数都是元组类型的locator,如(By.ID, ‘kw’) 一个只要一个符合条件的元素加载出来就通过;
另一个必须所有符合条件的元素都加载出来才行EC.visibility_of_element_located EC.invisibility_of_element_located
EC.visibility_of 这三个条件验证元素是否可见 前两个传入参数是元组类型的locator,第三个传入WebElement
第一个和第三个其实质是一样的EC.text_to_be_present_in_element
EC.text_to_be_present_in_element_value 这两个判断某段文本是否出现在某元素中
一个判断元素的text,一个判断元素的value属性EC.frame_to_be_available_and_switch_to_it 这个条件判断frame是否可切入,
可传入locator元组或者直接传入定位方式:id、name、index或WebElement#这个条件判断是否有alert出现 EC.alert_is_present
#这个条件判断元素是否可点击,传入locator EC.element_to_be_clickable
#这四个条件判断元素是否被选中, 第一个条件传入WebElement对象,第二个传入locator元组
#第三个传入WebElement对象以及状态,相等返回True,否则返回False
#第四个传入locator以及状态,相等返回True,否则返回False EC.element_to_be_selected EC.element_located_to_be_selected EC.element_selection_state_to_be
EC.element_located_selection_state_to_be
#最后一个条件判断一个元素是否仍在页面中,传入WebElement对象,可以判断页面是否刷新 EC.staleness_of