XML详细记录

最新推荐文章于 2025-12-03 13:04:04 发布

原创最新推荐文章于 2025-12-03 13:04:04 发布 · 831 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #服务器 #运维

今日内容

XML语法
XML约束之DTD
XML解析器介绍
Schema
DOM4J

1．XML

1. XML概述

1　什么是XML

XML全称为Extensible Markup Language, 意思是可扩展的标记语言，它是 SGML（标准通用标记语言）的一个子集。

XML语法上和HTML比较相似，但HTML中的元素是固定的，而XML的标签是可以由用户自定义的。

W3C在1998年2月发布1.0版本；

W3C在2004年2月发布1.1版本，但因为1.1版本不能向下兼容1.0版本，所以1.1没有人用。同时，在2004年2月W3C又发布了1.0版本的第三版。我们要学习的还是1.0版本！！！

2 W3C组织

W3C是万维网联盟(World Wide Web Consortium)英文的缩写，它成立于1994年10月，以开放论坛的方式来促进开发互通技术(包括规格、指南、软件和工具)，开发网络的全部潜能。万维网联盟(W3C)从1994年成立以来，已发布了90多份Web技术规范，领导着Web技术向前发展。

W3C认为自身不是官方组织，因此将它正式发布的规范称为推荐(建议)标准，意思是进一步标准化的建议，但是由于组织自身的权威性往往成为事实上的标准。

3 XML的作用

程序的配置文件（这也是最后大家使用XML最常见的目的）；
数据交换：不同语言之间用来交换数据；
小型数据库：用来当数据库存储数据。

4 XML与HTML比较

HTML的元素都是固定的，而XML可以自定义元素；
HTML用浏览器来解析执行， XML的解析器通常需要自己来写（因为元素是自定义的）；
HTML只能用来表示网页，而XML可以做的事情很多。

5 XML和properties（属性文件）比较

属性文件只能存储平面信息，而XML可以存储结构化信息；
解析属性文件只需要使用Properties类就可以了，而解析XML文档是很复杂的。

2. XML语法概述

元素！！！
文档声明！！！

1 XML文档展示

<?xml version="1.0" encoding="UTF-8" standalone="no"?>

<name>zhangSan</name>

</student>

<sex>female</sex>

</student>

<name>wangWu</name>

</student>

</students>

2 XML文档的组成部分

XML文档声明；
XML处理指令；
XML元素；
XML特殊字符和CDATA区； [![CADATA <<<<>>>>>> ]]
XML注释。

3. XML文档声明

1　什么是xml文档声明

可以把xml文档声明看成是xml文档说明。

最简单的xml文档声明：<?xml version="1.0"?>

注意，XML是区别大小写，这一点不同与HTML！

2 xml文档声明结构

version属性：用于说明当前xml文档的版本，因为都是在用1.0，所以这个属性值大家都写1.0，version属性是必须的；
encoding属性：用于说明当前xml文档使用的字符编码集，xml解析器会使用这个编码来解析xml文档。encoding属性是可选的，默认为UTF-8。注意，如果当前xml文档使用的字符编码集是gb2312，而encoding属性的值为UTF-8，那么一定会出错的；
standalone属性：用于说明当前xml文档是否为独立文档，如果该属性值为yes，表示当前xml文档是独立的，如果为no表示当前xml文档不是独立的，即依赖外部的约束文件。默认是yes
没有xml文档声明的xml文档，不是格式良好的xml文档；
xml文档声明必须从xml文档的1行1列开始。

4. XML元素

1 XML元素的格式1

xml元素包含：开始标签、元素体（内容）、结束标签。例如：<hello>大家好</hello>
空元素：空元素只有开始标签，没有元素体和结束标签，但空元素一定要闭合。例如：<hello/> <hr/>

2 XML元素的格式2

xml元素可以包含子元素或文本数据。例如：<a>hello</a>，a元素的元素体内容是b元素，而b元素的元素体内容是文本数据hello。
xml元素可以嵌套，但必须是合法嵌套。例如：<a>hello</a>就是错误的嵌套。

3 XML文档的根元素

格式良好的xml文档必须且仅有一个根元素！

student1.xml

<?xml version="1.0" encoding="utf-8" standalone="no"?>

<name>zhangSan</name>

</student>

<sex>female</sex>

</student>

</students>

student2.xml

<?xml version="1.0" encoding="utf-8" standalone="no"?>

<name>zhangSan</name>

</student>

<sex>female</sex>

</student>

student1.xml是格式良好的xml文档，只有一个根元素，即students元素。

student2.xml不是格式良好的xml文档，有两个根元素，即两个student根元素。

4　元素中的空白

xml元素的元素体可以包含文本数据和子元素。

a.xml

<a>hello</a>

b.xml

<a>

hello

</a>

a.xml中，<a>元素只有一个子元素，即元素。元素只有一个文本数据，即hello。

b.xml中，<a>元素中第一部分为换行缩进，第二部分为元素，第三部分为换行。b元素的文本数据为换行、缩进、hello、换行、缩进。

其中换行和缩进都是空白，这些空白是为了增强xml文档的可读性。但xml解析器可能会因为空白出现错误的解读，这说明在将来编写解析xml程序时，一定要小心空白。

5　元素命名规范

xml元素名可以包含字母、数字以及一些其它可见字符，但必须遵循下面的一些规范：

区分大小写：<a>和<A>是两个元素；
不能以数字开头：<1a>都是错误的；
最好不要以xml开头：<xml>、<Xml>、<XML>；
不能包含空格；

6. 元素属性

属性由属性名与属性值构成，中间用等号连接；
属性值必须使用引号括起来，单引或双引；
定义属性必须遵循与标签名相同的命名规范；
属性必须定义在元素的开始标签中；
一个元素中不能包含相同的属性名；

7. 注释

注释以结束；
注释中不能包含--；

Ctrl+/

8.转义字符和CDATA区

因为在xml文档中有些字符是特殊的，不能使用它们作为文本数据。例如：不能使用“<”或“>”等字符作为文本数据，所以需要使用转义字符来表示。

例如<a><a></a>，你可能会说，其中第二个<a>是a元素的文本内容，而不是一个元素的开始标签，但xml解析器是不会明白你的意思的。

把<a><a></a>修饰为<a><a></a>，这就OK了。

　　转义字符都是以“&”开头，以“;”结束。这与后面我们学习的实体是相同的。

9. CDATA区（CDATA段）

当大量的转义字符出现在xml文档中时，会使xml文档的可读性大幅度降低。这时如果使用CDATA段就会好一些。

在CDATA段中出现的“<”、“>”、“””、“’”、“&”，都无需使用转义字符。这可以提高xml文档的可读性。

　　在CDATA段中不能包含“]]>”，即CDATA段的结束定界符。

2. XML约束（了解）

1. XML约束概述

一个XML文档一旦有了约束，那么这个XML文档就只能使用约束中创建的元素及属性。如果约束没有创建<a>元素，那么XML文档就不能使用<a>元素！！！

1　什么是xml约束

因为xml文档是可以自定义元素的，这会让使用xml文档的应用程序无法知道xml文档的真实结构。通常应用程序都会要求xml文件的结构是固定的，以满足自己的需求，这就说明，不同的应用程序要求自己的xml文档必须符合一定的要求。

例如，当使用xml文档作为某个Java swing应用程序的配置文件时，要求xml文档结构如下：

</bgcolor>

<size>

</size>

<label>

<text>hello xml</text>

<label>

</content>

</frame>

当某个学生管理系统程序需要使用xml文档作为数据库时，要求xml文档结构如下：

<?xml version="1.0" encoding="utf-8" standalone="no"?>

<name>zhangSan</name>

</student>

<sex>female</sex>

</student>

<name>wangWu</name>

</student>

</students>

xml文档约束是用另一个文件来约束xml文档的结构，例如要求xml文档的根元素必须是<students>，在<students>元素下可以包含0~n个<student>元素，每个<student>元素必须有一个number属性，而且还要有三个子元素，分别为<name>、<age>、<sex>，这三个子元素的内容必须为文本内容，而不能是子元素。

2 XML文档约束的类型

xml文档约束有两种类型：dtd和schema

dtd：dtd是平面式文档，dtd文件不是xml文档，通常扩展名为“.dtd”。它是最早的xml约束；
schema：schema本身也是xml文档，它比dtd要更加强大，通常扩展名为“.xsd”。它是新的xml文档约束，用来替代dtd。

DTD是老的XML约束

Schema是新的，用Schema替换掉DTD

会读即可！

2. DTD

1　什么是DTD

DTD（Document Type Definition），文档类型定义，用来约束XML文档。例如要求xml文档的根元素必须是<students>，在<students>元素下可以包含0~n个<student>元素，每个<student>元素必须有一个number属性，而且还要有三个子元素，分别为<name>、<age>、<sex>，这三个子元素的内容必须为文本内容，而不能是子元素。

2 DTD展示

<!ELEMENT students (student+)>

<!ELEMENT student (name,age,sex)>

<!ELEMENT name (#PCDATA)>

<!ELEMENT age (#PCDATA)>

<!ELEMENT sex (#PCDATA)>

解读上面DTD：

students元素中可以包含1~n个student元素；
student元素中必须包含name、age、sex元素，而且顺序也是固定的；
name元素内容为文本，即字符串；
age元素内容为文本；
sex元素内容为文本。

3. Schema

1. Schema概述

我们学习Schema的第一目标是：参照Schema的要求可以编写XML文档；

第二目标是：可以自己来定义Schema文档。

2　为什么要用Schema

DTD 的局限性

DTD不遵守XML语法（写XML文档实例时候用一种语法，写DTD的时候用另外一种语法）

DTD数据类型有限（与数据库数据类型不一致）

DTD不可扩展

DTD不支持命名空间（命名冲突）

Schema的新特性

Schema基于XML语法

Schema可以用能处理XML文档的工具处理

Schema大大扩充了数据类型，可以自定义数据类型

Schema支持元素的继承—Object-Oriented’

Schema支持属性组

3．scheme的文档结构

4. scheme的数据类型

简单类型

内置的数据类型（built-in data types）

- - 基本的数据类型

- - 扩展的数据类型

用户自定义数据类型（通过simpleType定义）

数据类型的特性

复杂类型（通过complexType定义）

4.XML解析

1.操作XML文档概述

1　如何操作XML文档

XML文档也是数据的一种，对数据的操作也不外乎是“增删改查”。也被大家称之为“CRUD”。

C：Create；
R：Retrieve；
U：Update；
D：Delete

2 XML解析技术

XML解析方式分为两种：DOM（Document Object Model）和SAX（Simple API for XML）。这两种方式不是针对Java语言来解析XML的技术，而是跨语言的解析方式。例如DOM还在Javascript中存在！

DOM是W3C组织提供的解析XML文档的标准接口，而SAX是社区讨论的产物，是一种事实上的标准。

DOM和SAX只是定义了一些接口，以及某些接口的缺省实现，而这个缺省实现只是用空方法来实现接口。一个应用程序如果需要DOM或SAX来访问XML文档，还需要一个实现了DOM或SAX的解析器，也就是说这个解析器需要实现DOM或SAX中定义的接口。提供DOM或SAX中定义的功能。

4.DOM4J

1.DOM4J概述

1 DOM4J是什么

DOM4J是针对Java开发人员专门提供的XML文档解析规范，它不同与DOM，但与DOM相似。DOM4J针对Java开发人员而设计，所以对于Java开发人员来说，使用DOM4J要比使用DOM更加方便。

DOM4J对DOM和SAX提供了支持，使用DOM4J可以把org.dom4j.document转换成org.w3c.Document，DOM4J也支持基于SAX的事件驱动处理模式。

使用者需要注意，DOM4J解析的结果是org.dom4j.Document，而不是org.w3c.Document。DOM4J与DOM一样，只是一组规范（接口与抽象类组成），底层必须要有DOM4J解析器的实现来支持。

DOM4J使用JAXP来查找SAX解析器，然后把XML文档解析为org.dom4j.Document对象。它还支持使用org.w3c.Document来转换为org.dom4j.Docment对象。

2 DOM4J中的类结构

在DOM4J中，也有Node、Document、Element等接口，结构上与DOM中的接口比较相似。但还是有很多的区别：

在DOM4J中，所有XML组成部分都是一个Node，其中Branch表示可以包含子节点的节点，例如Document和Element都是可以有子节点的，它们都是Branch的子接口。

Attribute是属性节点，CharacterData是文本节点，文本节点有三个子接口，分别是CDATA、Text、Comment。

3 DOM4J获取Document对象

　　使用DOM4J来加载XML文档，需要先获取SAXReader对象，然后通过SAXReader对象的read()方法来加载XML文档：

SAXReader reader = new SAXReader();

// reader.setValidation(true);

Document doc = reader.read("src/students.xml");

4 DOM4J保存Document对象

保存Document对象需要使用XMLWriter对象的write()方法来完成，在创建XMLWriter时还可以为其指定XML文档的格式（缩进字符串以及是否换行），这需要使用OutputFormat来指定。

doc.addDocType("students", "", "students.dtd");

OutputFormat format = new OutputFormat("\t", true);

format.setEncoding("UTF-8");

XMLWriter writer = new XMLWriter(new FileWriter(xmlName), format);

writer.write(doc);

writer.close();

5 DOM4J创建Document对象

DocumentHelper类有很多的createXXX()方法，用来创建各种Node对象。

Document doc = DocumentHelper.createDocument();

2.Document操作 (*)

1　遍历students.xml

　　涉及的相关方法：

Element getRootElement()：Document的方法，用来获取根元素；
List elements()：Element的方法，用来获取所有孩子元素；
String attributeValue(String name)：Element的方法，用来获取指定名字的属性值；
Element element(String name)：Element的方法，用来获取第一个指定名字的子元素；
String elementText(String name)：Element的方法，用来获取第一个指定名字的子元素的文本内容。

分析步骤：

获取Document对象；
获取root元素；
获取root所有子元素
遍历每个student元素；

打印student元素number属性；
打印student元素的name子元素内容；
打印student元素的age子元素内容；
打印student元素的sex子元素内容。

3. XPath

1　什么是XPath

XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初 XPath 的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是 XPath 很快的被开发者采用来当作小型查询语言。