python爬虫页面按钮未加载报错selenium.common.exceptions.NoSuchElementException问题解决

本文讲述了在使用Python爬虫时遇到selenium.common.exceptions.NoSuchElementException错误的原因和解决方法。问题出现在页面的下载按钮因任务未完全生成而不可点击。作者尝试了显示等待、匹配不同的By参数以及自定义函数刷新页面等方法,最终通过在点击刷新后加入延迟解决了问题。文章强调了爬虫中考虑页面加载的重要性,并表达了通过解决问题提升技能和分享经验的愿望。
python爬虫页面按钮未加载报错selenium.common.exceptions.NoSuchElementException问题解决
  • 前言

在爬取公司内部网站数据时,是通过先生成下载任务,再切换至下载界面,点击下载按钮下载数据,简单来说,只是模拟人对浏览器的点击动作,进而将重复性工作自动化

  • 道路坎坷,bug出现

昨天终于成功将爬取的数据插入数据库,并且在今天早上刚上班之际,发现昨天下班前还在执行的爬虫脚本完美的运行完毕,瞬间沾沾自喜,心想:“不错不错,总算可以稳定爬取数据了”,可当我喜滋滋的运行今天的爬虫后没多久,就被泼了盆冷水,没错,程序报错了,报的就是标题提到的错误:

selenium.common.exceptions.NoSuchElementException

打开浏览器,瞬间发现是由于下载数据的【下载】按钮不可按导致的,之前考虑到过导出任务生成,到任务加载完毕,需要时间缓冲,就简单粗暴的time.sleep(60)等待60秒后再切换到下载界面,结果系统卡着的时候60秒任务仍未生成完毕,切换到下载界面时下载按钮仍然为灰色,不可点击,所以报错。
在这里插入图片描述
下载按钮未灰色不可点击

  • 解决思路及过程
    前期在编写整体爬虫时曾遇到过此类问题,当时百度到用的是显示等待
element = WebDriverWait(self.driver, 10).until(
                EC.element_to_be_clickable((By.ID, "exportButton")))
element.click()

当时,对此不是很理解,只是依葫芦画瓢,然后测试了一下,竟然成功运行了,现在回过头来,就想着在此处也用该方法解决,就又去百度该方法的具体用法,发现除了By.ID,还可以通过class_name、xpath等方法,通过查看By源码,有如下方式可以进行匹配

class By(object):
    """
    Set of supported locator strategies.
    """

    ID = "id"
    XPATH = "xpath"
    LINK_TEXT = "link text"
    PARTIAL_LINK_TEXT = "partial link text"
    NAME = "name"
    TAG_NAME = "tag name"
    CLASS_NAME = "class name"
    CSS_SELECTOR = "css selector"

突然就对这个方法用法有了直观的认识,就对此作出了修改,通过匹配By.XPATH方法

element = WebDriverWait(self.driver, 100).until(
          EC.element_to_be_clickable((By.XPATH, "//*[@id="seachButton"]'")))
element.click()

结果还是报错,找了好久才发现下载页面的按钮不会自动更新,需要刷新一下才会更新,这个方法在此不可用,寻找新方法。

在这里插入图片描述

思考了一会儿,想着可不可以自建个自引用函数,先识别按钮是否可用,如果不可用强制等待10秒后点击搜索刷新页面,再重新读取这个函数进行识别,代码如下

 def downloadclickable(self, xpath):  # 下载任务未生成,需要点击搜索按钮刷新
     self.driver.find_element_by_xpath('//*[@id="seachButton"]').click()
     time.sleep(1)
     if self.driver.find_element_by_xpath(xpath + '/button').is_enabled():
        self.driver.find_element_by_xpath(xpath).click()  # 点击下载按钮,自动下载到指定文件里(zip)
     else:
        print("下载按钮不可点击,10秒后刷新,再点击")
        time.sleep(10)
        self.downloadclickable(xpath)

函数先点击搜索按钮刷新,一开始没设置time.sleep(1),结果程序总是报错,显示元素不存在,还以为是自己写的自引用函数不可以这样用,又过了漫长的时间搜索,才想到可能是点击搜索刷新后页面需要时间加载,就尝试加了等待一秒,运行程序,总算成功了 !!!

  • 总结

爬虫时一定要考略页面加载问题,虽然无法考略到所有情况,但出现Bug时,很大可能是在哪个加载页面出现问题了,直接定位到那个页面,才能快速准确解决Bug,不过出现一次Bug,就意味着又可以学习到新的知识了,越来越喜欢处理Bug的过程了。

初次写博客,才发现自己文字表达能力严重不足,非常有待提高,接下来希望通过写博客提高自己的文字表达能力;另一方面,在处理Bug的过程中,搜寻到了很多大佬写得处理问题的方法和经验,多亏他们,我才能顺利的解决Bug,所以想着将自己遇到的问题也写出来,万一有遇到和我一样问题的人,如果能给看到我写的博客的人提供些许帮助,那也算报答前人对我的帮助了。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值