Python爬虫突然提取不出信息了,返回的是空列表的解决办法

本文介绍了解决网站认为爬虫请求过于频繁的问题方法,通过使用Python的time库中的sleep函数来控制请求频率,避免触发网站的反爬机制。
部署运行你感兴趣的模型镜像

一般这种情况,往往是因为网站觉得你操作太频繁了,需要手动验证一下,这个时候手动打开一个网页,根据网页提示进行操作一个,即可继续进行信息提取。

可以用time库里面的sleep操作:

# 生成随机数的函数randint
from random import randint
# 设置睡眠时间,即多久运行一次
from time import sleep
# 放到函数里即可,程序执行到这里会进行停顿
sleep(randint(2, 5))

感兴趣的可以看我的另一篇博客:一次完整的爬虫

利用requests和xpath爬取网页内容过程

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

<think>好的,我现在需要解决用户关于XPath表达式无法正确提取链接的问题。用户的XPath是'//a[contains(@class,"ant-btn-sm") and @data-trace="SHOP_HOME_PAGE"]/@href',返回列表。首先,我得分析可能的原因,然后逐一排查。 首先,检查XPath语法是否正确。contains函数和属性选择器的使用看起来没问题,但可能存在隐藏的拼写错误,比如类名是否正确,或者属性名是否正确,比如data-trace是否确实存在。用户需要注意大小写是否匹配,比如"ant-btn-sm"是否在class中正确,或者是否有其他类名干扰。 其次,考虑网页结构是否动态加载。如果页面内容是通过JavaScript动态生成的,使用普通的requests库可能无法获到动态内容,这时候需要用Selenium或Scrapy的中间件来处理。用户是否确认已经获到了包含目标元素的HTML?可能需要检查实际获的HTML内容,确认元素是否存在。 另外,可能元素所在的路径有变化,比如被包裹在某个特定的div或iframe中,这时候需要调整XPath路径,添加父级节点的选择。例如,可能需要指定完整的路径,或者使用相对路径更灵活的方式。 属性是否严格匹配?比如data-trace的是否是"SHOP_HOME_PAGE",或者是否有额外的格或其他字符。这时候可能需要使用contains函数代替精确匹配,或者检查是否有格,比如使用normalize-space函数处理。 还有,XPath表达式是否正确指向了href属性?用户使用了@href,但如果元素没有href属性,或者属性名有误,也会导致列表。可能需要检查元素是否确实有href属性,或者是否使用了正确的属性名。 另外,是否因为页面结构复杂,导致XPath无法定位到元素?可能需要使用更精确的选择器,比如结合其他属性或层级关系,或者使用通配符来增强适应性。例如,添加祖先节点的某些特征来缩小范围。 总结下来,可能的解决步骤包括:1. 检查网页源码确认元素存在;2. 验证XPath语法和逻辑;3. 处理动态加载内容;4. 调整XPath路径和属性匹配方式;5. 使用工具如浏览器开发者工具测试XPath。用户可能需要逐一尝试这些方法,找到问题所在并进行调整。</think>### XPath表达式无法提取链接的常见原因及解决方案 #### 1. 元素属性匹配不精确 - **问题分析**:`contains(@class,"ant-btn-sm")`可能匹配到多个类名组合的情况,例如`class="ant-btn-sm disabled"`会导致匹配失败[^3]。 - **解决方案**:改用精确匹配或调整类名判断逻辑: ```xpath //a[@class="ant-btn-sm" and @data-trace="SHOP_HOME_PAGE"]/@href ``` 或使用格分隔符判断完整类名: ```xpath //a[contains(concat(' ', @class, ' '), ' ant-btn-sm ') and @data-trace="SHOP_HOME_PAGE"]/@href ``` #### 2. 动态内容未加载 - **问题分析**:若目标元素通过JavaScript动态生成,直接请求页面源码时可能无法获该元素[^2]。 - **解决方案**: - 使用Selenium或Playwright渲染动态页面 - 在Scrapy中启用中间件`scrapy-selenium` - 检查网络请求,直接调用数据接口 #### 3. 层级路径缺失 - **问题分析**:元素可能嵌套在特定容器中,直接使用`//a`可能跳过关键父节点。 - **解决方案**:添加父节点限制: ```xpath //div[@class="container"]//a[contains(@class,"ant-btn-sm") and @data-trace="SHOP_HOME_PAGE"]/@href ``` #### 4. 属性存在隐藏字符 - **问题分析**:`@data-trace`的可能包含不可见字符(如格)。 - **解决方案**:使用`normalize-space()`函数处理: ```xpath //a[contains(@class,"ant-btn-sm") and normalize-space(@data-trace)="SHOP_HOME_PAGE"]/@href ``` #### 5. XPath调试技巧 - **验证方法**:在浏览器开发者工具中按`Ctrl+F`测试XPath: ```javascript $x('//a[contains(@class,"ant-btn-sm")]') // 检查是否能找到元素 ``` - **分步验证**:先单独测试每个条件: ```xpath //a[contains(@class,"ant-btn-sm")] // 检查类名匹配 //a[@data-trace="SHOP_HOME_PAGE"] // 检查属性匹配 ``` #### 6. 元素在iframe中 - **问题分析**:若目标元素位于`<iframe>`内,需先切换到iframe上下文。 - **解决方案**(以Selenium为例): ```python driver.switch_to.frame(driver.find_element(By.TAG_NAME, "iframe")) elements = driver.find_elements(By.XPATH, '//a[...]') ``` #### 完整代码示例 ```python from selenium import webdriver from selenium.webdriver.common.by import By driver = webdriver.Chrome() driver.get("目标URL") # 处理iframe情况 iframes = driver.find_elements(By.TAG_NAME, "iframe") if iframes: driver.switch_to.frame(iframes[0]) # 使用改良后的XPath links = driver.find_elements(By.XPATH, '//a[contains(concat(" ", @class, " "), " ant-btn-sm ") and normalize-space(@data-trace)="SHOP_HOME_PAGE"]/@href' ) print([link.get_attribute("href") for link in links]) ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JdiLfc

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值