selenium动态渲染页面爬取(1)(基于书籍《Python3网络爬虫开发实战学习》)

本文详细介绍Selenium的基本使用方法,包括浏览器驱动的安装配置、页面元素的定位与交互、显性和隐性等待策略的应用,以及异常处理技巧。同时,还介绍了如何使用动作链实现拖拽操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Selenium 的使用

1、基本使用

以Chrome为例,先安装ChromeDriver。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait

browser = webdriver.Chrome()
try:
    browser.get("https://www.baidu.com")
    # 查找源码中id为kw的位置
    input = browser.find_element_by_id("kw")
    # 输入keys
    input.send_keys("Python")
    # Keys.ENTER搜索
    input.send_keys(Keys.ENTER)
    # 显性等待,搭配wait.until使用,每隔0.5秒(默认0.5秒)按要求查找一次。
    wait = WebDriverWait(browser, 10)
    wait.until(EC.presence_of_all_elements_located((By.ID, "content_left")))
    # 输出当前网页的url
    print(browser.current_url)
    # 输出当前网页cookies
    print(browser.get_cookies())
    # 输入当前网页源代码
    print(browser.page_source)
finally:
    browser.close()

三种等待方式:

1、强制等待:time.sleep(x)
强制等待x秒后,在执行下一步。
2、隐性等待:Driver.implicitly_wait(x)
在x秒内加载完网页就立刻执行下一步,不需要等待x秒后,如果超时直接继续下一步。
3、显性等待:wait = WebDriverWait(browser, 10,1).until(EC.presence_of_all_elements_located((By.ID, "content_left")))
在10秒内,每隔一秒去判断until中的条件是否显示,显示直接继续下一步,反之继续判断,如果超时抛出异常。

 wait.until(EC.presence_of_all_elements_located((By.ID, "content_left")))

判断条件为查找id为content_left的标签位置是否出现,判断此元素是否杯加到DOM里,不代表元素可见,如果定位到了,即返回WebElement对象
###DOM 介绍
DOM(Document Object Model)即文档对象模型,是W3C制定的标准接口规范,是一种处理HTML和XML文件的标准API。DOM提供了对整个文档的访问模型,将文档作为一个树形结构,树的每个结点表示了一个HTML标签或标签内的文本项。
类似于数据结构中的树结构,每一个标签是一个树节点,通过节点可以对html继续增删改查等操作。
运行结果

动作链知识

from selenium import webdriver
from selenium.webdriver import ActionChains

browser = webdriver.Chrome()
url = "http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable"
browser.get(url)
browser.switch_to_frame("iframeResult")
# css选择器
source = browser.find_element_by_css_selector("#draggable")
target = browser.find_element_by_css_selector("#droppable")
# 创建一个ActionChains对象
actions = ActionChains(browser)
# drag_and_drop将位置source移到target位置
actions.drag_and_drop(source, target)
# 执行
actions.perform()

拖拽前
拖拽后

异常处理

from selenium import webdriver
from selenium.common.exceptions import TimeoutException,NoSuchElementException

browser = webdriver.Chrome()
try:
    browser.get("https://www.baidu.com")
# 超时处理
except TimeoutException:
    print("Tine Out")
try:
    browser.find_element_by_id("hello")
# 未查询到返回No Element
except NoSuchElementException:
    print("No Element")
finally:
    browser.close()
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

独角兽小马

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值