一、XPath 是什么?为什么爬虫必备?
XPath 是一种在 XML/HTML 文档中定位元素的语言,爬虫用它来 “精准抓取” 网页数据。
核心优势:
- 比正则表达式更简洁、高效
- 支持层级定位(父 / 子 / 兄弟节点)
- 可根据属性、文本内容筛选元素
类比:如果把网页比作图书馆,XPath 就是 “找书指南”,能快速定位到你想要的 “数据书籍”。
二、XPath 基础语法(5 分钟速通)
1. 绝对路径与相对路径
- 绝对路径:从根节点开始,用
/分隔(如:/html/body/div) - 相对路径:从当前节点开始,用
//表示任意层级(如://div)
2. 常用选择器
| 语法 | 作用 | 示例 |
|---|---|---|
//tag |
选取所有 tag 元素 |
//div 选所有 div |
//tag[@attr] |
选取带 attr 属性的元素 |
|

最低0.47元/天 解锁文章
506

被折叠的 条评论
为什么被折叠?



