文章目录
1、Xpath
1.1 什么是xpath?
XPath(XML Path Language)是一门在XML文档中查找信息的语言,可以用来在XML文档对元素和属性进行遍历
XML Path Language : XML路径语言
1.2 xpath的原理
我们知道xpath就是一门对xml文档进行信息筛选的一门语言,而我们平常抓取的网页源码基本都是HTML格式的,所以我们需要
先将HTML文档转为XML文档,再用XPath语法查找HTML节点或元素
1.3 xml介绍
1.3.1 什么是xml?
1、XML指可扩展标记语言
2、XML是一种标记语言,类似于HTML
3、XML的设计宗旨是传输数据,而非显示数据
4、XML标签需要我们自己自定义
5、XML被设计为具有自我描述性