python爬虫页面按钮未加载报错selenium.common.exceptions.NoSuchElementException问题解决

最新推荐文章于 2024-06-06 18:12:55 发布

原创最新推荐文章于 2024-06-06 18:12:55 发布 · 2k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

python 专栏收录该内容

8 篇文章

订阅专栏

本文讲述了在使用Python爬虫时遇到selenium.common.exceptions.NoSuchElementException错误的原因和解决方法。问题出现在页面的下载按钮因任务未完全生成而不可点击。作者尝试了显示等待、匹配不同的By参数以及自定义函数刷新页面等方法，最终通过在点击刷新后加入延迟解决了问题。文章强调了爬虫中考虑页面加载的重要性，并表达了通过解决问题提升技能和分享经验的愿望。

python爬虫页面按钮未加载报错selenium.common.exceptions.NoSuchElementException问题解决

前言

在爬取公司内部网站数据时，是通过先生成下载任务，再切换至下载界面，点击下载按钮下载数据，简单来说，只是模拟人对浏览器的点击动作，进而将重复性工作自动化

道路坎坷，bug出现

昨天终于成功将爬取的数据插入数据库，并且在今天早上刚上班之际，发现昨天下班前还在执行的爬虫脚本完美的运行完毕，瞬间沾沾自喜，心想：“不错不错，总算可以稳定爬取数据了”，可当我喜滋滋的运行今天的爬虫后没多久，就被泼了盆冷水，没错，程序报错了，报的就是标题提到的错误：

selenium.common.exceptions.NoSuchElementException

打开浏览器，瞬间发现是由于下载数据的【下载】按钮不可按导致的，之前考虑到过导出任务生成，到任务加载完毕，需要时间缓冲，就简单粗暴的time.sleep(60)等待60秒后再切换到下载界面，结果系统卡着的时候60秒任务仍未生成完毕，切换到下载界面时下载按钮仍然为灰色，不可点击，所以报错。
在这里插入图片描述
下载按钮未灰色不可点击

解决思路及过程
前期在编写整体爬虫时曾遇到过此类问题，当时百度到用的是显示等待

element = WebDriverWait(self.driver, 10).until(
                EC.element_to_be_clickable((By.ID, "exportButton")))
element.click()

当时，对此不是很理解，只是依葫芦画瓢，然后测试了一下，竟然成功运行了，现在回过头来，就想着在此处也用该方法解决，就又去百度该方法的具体用法，发现除了By.ID,还可以通过class_name、xpath等方法，通过查看By源码，有如下方式可以进行匹配

class By(object):
    """
    Set of supported locator strategies.
    """

    ID = "id"
    XPATH = "xpath"
    LINK_TEXT = "link text"
    PARTIAL_LINK_TEXT = "partial link text"
    NAME = "name"
    TAG_NAME = "tag name"
    CLASS_NAME = "class name"
    CSS_SELECTOR = "css selector"

突然就对这个方法用法有了直观的认识，就对此作出了修改，通过匹配By.XPATH方法

element = WebDriverWait(self.driver, 100).until(
          EC.element_to_be_clickable((By.XPATH, "//*[@id="seachButton"]'")))
element.click()

结果还是报错，找了好久才发现下载页面的按钮不会自动更新，需要刷新一下才会更新，这个方法在此不可用，寻找新方法。

在这里插入图片描述

思考了一会儿，想着可不可以自建个自引用函数，先识别按钮是否可用，如果不可用强制等待10秒后点击搜索刷新页面，再重新读取这个函数进行识别，代码如下

 def downloadclickable(self, xpath):  # 下载任务未生成，需要点击搜索按钮刷新
     self.driver.find_element_by_xpath('//*[@id="seachButton"]').click()
     time.sleep(1)
     if self.driver.find_element_by_xpath(xpath + '/button').is_enabled():
        self.driver.find_element_by_xpath(xpath).click()  # 点击下载按钮，自动下载到指定文件里（zip）
     else:
        print("下载按钮不可点击，10秒后刷新，再点击")
        time.sleep(10)
        self.downloadclickable(xpath)

函数先点击搜索按钮刷新，一开始没设置time.sleep(1)，结果程序总是报错，显示元素不存在，还以为是自己写的自引用函数不可以这样用，又过了漫长的时间搜索，才想到可能是点击搜索刷新后页面需要时间加载，就尝试加了等待一秒，运行程序，总算成功了！！！

总结

爬虫时一定要考略页面加载问题，虽然无法考略到所有情况，但出现Bug时，很大可能是在哪个加载页面出现问题了，直接定位到那个页面，才能快速准确解决Bug，不过出现一次Bug，就意味着又可以学习到新的知识了，越来越喜欢处理Bug的过程了。

初次写博客，才发现自己文字表达能力严重不足，非常有待提高，接下来希望通过写博客提高自己的文字表达能力；另一方面，在处理Bug的过程中，搜寻到了很多大佬写得处理问题的方法和经验，多亏他们，我才能顺利的解决Bug,所以想着将自己遇到的问题也写出来，万一有遇到和我一样问题的人，如果能给看到我写的博客的人提供些许帮助，那也算报答前人对我的帮助了。