selenium动态渲染页面爬取（1）（基于书籍《Python3网络爬虫开发实战学习》）

本文链接：https://blog.youkuaiyun.com/weixin_44457673/article/details/115602126

本文详细介绍Selenium的基本使用方法，包括浏览器驱动的安装配置、页面元素的定位与交互、显性和隐性等待策略的应用，以及异常处理技巧。同时，还介绍了如何使用动作链实现拖拽操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Selenium 的使用

1、基本使用

以Chrome为例，先安装ChromeDriver。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait

browser = webdriver.Chrome()
try:
    browser.get("https://www.baidu.com")
    # 查找源码中id为kw的位置
    input = browser.find_element_by_id("kw")
    # 输入keys
    input.send_keys("Python")
    # Keys.ENTER搜索
    input.send_keys(Keys.ENTER)
    # 显性等待，搭配wait.until使用，每隔0.5秒（默认0.5秒）按要求查找一次。
    wait = WebDriverWait(browser, 10)
    wait.until(EC.presence_of_all_elements_located((By.ID, "content_left")))
    # 输出当前网页的url
    print(browser.current_url)
    # 输出当前网页cookies
    print(browser.get_cookies())
    # 输入当前网页源代码
    print(browser.page_source)
finally:
    browser.close()

三种等待方式：

1、强制等待：time.sleep(x)
强制等待x秒后，在执行下一步。
2、隐性等待：Driver.implicitly_wait(x)
在x秒内加载完网页就立刻执行下一步，不需要等待x秒后，如果超时直接继续下一步。
3、显性等待：wait = WebDriverWait(browser, 10，1).until(EC.presence_of_all_elements_located((By.ID, "content_left")))
在10秒内，每隔一秒去判断until中的条件是否显示，显示直接继续下一步，反之继续判断，如果超时抛出异常。

 wait.until(EC.presence_of_all_elements_located((By.ID, "content_left")))

判断条件为查找id为content_left的标签位置是否出现，判断此元素是否杯加到DOM里，不代表元素可见，如果定位到了，即返回WebElement对象
###DOM 介绍
DOM（Document Object Model）即文档对象模型，是W3C制定的标准接口规范，是一种处理HTML和XML文件的标准API。DOM提供了对整个文档的访问模型，将文档作为一个树形结构，树的每个结点表示了一个HTML标签或标签内的文本项。
类似于数据结构中的树结构，每一个标签是一个树节点，通过节点可以对html继续增删改查等操作。
运行结果

动作链知识

from selenium import webdriver
from selenium.webdriver import ActionChains

browser = webdriver.Chrome()
url = "http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable"
browser.get(url)
browser.switch_to_frame("iframeResult")
# css选择器
source = browser.find_element_by_css_selector("#draggable")
target = browser.find_element_by_css_selector("#droppable")
# 创建一个ActionChains对象
actions = ActionChains(browser)
# drag_and_drop将位置source移到target位置
actions.drag_and_drop(source, target)
# 执行
actions.perform()

拖拽前
拖拽后

异常处理

from selenium import webdriver
from selenium.common.exceptions import TimeoutException,NoSuchElementException

browser = webdriver.Chrome()
try:
    browser.get("https://www.baidu.com")
# 超时处理
except TimeoutException:
    print("Tine Out")
try:
    browser.find_element_by_id("hello")
# 未查询到返回No Element
except NoSuchElementException:
    print("No Element")
finally:
    browser.close()