XML笔记_解析XML之DOM和SAX

最新推荐文章于 2023-06-05 20:12:10 发布

原创最新推荐文章于 2023-06-05 20:12:10 发布 · 881 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#xml #dom

本文深入解析了DOM（Document Object Model）在XML应用开发中的作用，包括XML文档树的概念、DOM与XML文档的关系，以及如何使用JAXP、DocumentBuilderFactory和DocumentBuilder解析XML文件。同时，介绍了SAX解析器的使用场景和与DOM的区别，最后通过实例展示了如何遍历和操作XML文档。

DOM（Document Object Model）

1. 对于XML应用开发者来说，DOM就是一个对象化的XML数据接口，一个与语言无关、与平台无关的标准接口规范。

要严格区分XML文档树中的根结点与根元素结点：根结点(Document)代表的是 XML 文档本身，是我们解析XML 文档的入口，而跟元素结点则表示XML 文档的根元素，它对应于 XML 文档的 Root。

例子：

<?xml version="1.0"?>
<PEOPLE>
	<PERSON PERSONID="E01">
		<NAME>Tony Blair</NAME>
		<ADDRESS>10 Downing Street, London, UK</ADDRESS>
		<TEL>(061) 98765</TEL>
		<FAX>(061) 98765</FAX>
		<EMAIL>blair@everywhere.com</EMAIL>
	</PERSON>
	<PERSON PERSONID="E02">
		<NAME>Bill Clinton</NAME>
		<ADDRESS>White House, USA</ADDRESS>
		<TEL>(001) 6400 98765</TEL>
		<FAX>(001) 6400 98765</FAX>
		<EMAIL>bill@everywhere.com</EMAIL>
	</PERSON>
	<PERSON PERSONID="E03">
		<NAME>Tom Cruise</NAME>
		<ADDRESS>57 Jumbo Street, New York, USA</ADDRESS>
		<TEL>(001) 4500 67859</TEL>
		<FAX>(001) 4500 67859</FAX>
		<EMAIL>cruise@everywhere.com</EMAIL>
	</PERSON>
	<PERSON PERSONID="E04">
		<NAME>Linda Goodman</NAME>
		<ADDRESS>78 Crax Lane, London, UK</ADDRESS>
		<TEL>(061) 54 56789</TEL>
		<FAX>(061) 54 56789</FAX>
		<EMAIL>linda@everywhere.com</EMAIL>
	</PERSON>
</PEOPLE>

package com.bob.xml.dom;

import java.io.File;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;

import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.NodeList;

public class DomTest1 {
	public static void main(String[] args) throws Exception {
		
		// step 1: 获得dom解析器工厂（工厂的作用是用于创建具体的解析器）
		DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();

		// step 2：获得具体的dom解析器
		DocumentBuilder db = dbf.newDocumentBuilder();

		// setp 3： 解析一个xml文档，获得Document对象（根结点）
		Document document = db.parse(new File("candidate.xml"));

		NodeList list = document.getElementsByTagName("PERSON");

		for (int i = 0; i < list.getLength(); i++) {
			Element element = (Element) list.item(i);
			String content = element.getElementsByTagName("NAME").item(0)
					.getFirstChild().getNodeValue();
			System.out.println(content);
		}

	}
}

解析xml前3步基本上都是固定的语句。sun为我们提供了多个解析器，每个解析器都实现了JAXP接口，因此可以在不同的解析器之前自由的切换。我们需要去解析一个XML文档必须首先使用解析器获得根节点（Document）对象。获取Document方法是使用Sun提供的解析器工厂里面的对应的解析器，然后通过解析器获得Document对象。可参考上图理解。

2. JAXP（Java API for XML Parsing):用于XML 解析的 Java API。

3. DocumentBuilderFactory 与 DocumentBuilder 之间的关系：

4. SAX（Simple APIs for XML），面向 XML的简单APIs。

5. 使用 DOM 解析 XML 时，首先将 XML 文档加载到内存当中，然后可以通过随机的方式访问内存中的 DOM 树； SAX 是基于事件而且是顺序执行的，一旦经过了某个元素，我们就没有办法再去访问它了，SAX 不必事先将整个XML文档加载到内存当中，因此它占据内存要比 DOM 小，对于大型的 XML 文档来说，通常会使用 SAX 而不是 DOM 进行解析。