在浏览器中xpath正确而在程序中无法定位的解决方案

在爬取化学网站数据过程中,遇到HTML结构不完整导致XPath定位失败的问题。通过检查源代码发现,浏览器自动补全了某些HTML标签,如tbody和p标签。最终采用两种方案解决:一是依据原始HTML代码进行定位;二是利用Selenium操作浏览器实现元素的正常渲染和定位。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天在帮学姐爬取一个化学网站的数据时,遇到了一个小问题,当我在浏览器中用xpath语法定位到该表格元素后并将其copy至程序中后,我发现怎么样都无法正确定位。

当然最后还是找到了解决方案:查看源代码,因为在浏览器中普遍会对html代码进行优化,在源代码中定位到目标元素中后发现表格中的table元素下没有tbody,是浏览器自动加上去的,还有就是p元素的标签没有闭合,也是浏览器自动补上去的…之后就可以根据原始的html代码而进行查找了。

当然我个人认为还有第二种解决方案就是使用selenium进行定位,因为是使用操作浏览器,所以应该会正常渲染补全标签。

是真的很坑。。。。。记得以前在慕课上好像看到过这个情况来着

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值