为什么不要轻易使用 Chrome 复制的 XPath？

最新推荐文章于 2025-04-17 15:03:52 发布

原创

最新推荐文章于 2025-04-17 15:03:52 发布 · 1.2k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #程序员 #Python开发 #python编程

虽然Chrome开发者工具提供XPath复制功能，但其生成的XPath可能与网页真实源代码不符，导致爬虫无法正确提取数据。文章通过实例说明了这个问题，强调在编写爬虫时应基于网页源代码检查XPath，确保数据提取的准确性。

有一些同学在写爬虫的时候，喜欢在Chrome 开发者工具里面直接复制 XPath，如下图所示：

他们觉得这样复制出来的 XPath 虽然长了点，但是工作一切正常，所以频繁使用。

但我希望大家不要过于依赖这个功能。因为它给出的结果仅作参考，有时候并不能让你提取出数据。我们来看一个例子。

这是一个非常简单的HTML 页面，页面中有一个表格，表格有一列叫做电话。我现在想把这里面的5个电话提取出来。如果直接使用 Chrome 的复制 XPath 的功能，我们可以得到下面这个 XPath：

/html/body/div/table/tbody/tr[3]/td[4]

这实际上对应了刘小三这一行的电话字段。那么，我们去掉tr后面的数字，似乎就能覆盖到所有行了：

/html/body/div/table/tbody/tr/td[4]/text()

在 XPath Helper 上面运行看看效果，确实提取出了所有的电话号码，如下图所示：

但如果你使用 requests 来爬这个网页，然后使用 XPath 提取电话号码，你就会发现什么都提取不到，如下图所示：

你

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。