Java基础37-XML解析-优快云博客

目前对XML解析技术有DOM和SAX。JDK提供了JAXP来使用DOM和SAX。

1.DOM树

DOM是XML文档的应用程序接口，它定义了对XML文档进行随机访问与操作的方法。DOM是一个与语言无关、与平台无关的标准接口规范。利用DOM，程序开发人员可以动态的创建XML文档，遍历文档结构，添加、修改、删除文档内容，改变文档的显示方式等。可以这样说，文档代表的是数据，而DOM则代表了如何去处理这些数据。

DOM把一个XML文档映射成一个分层对象模型，而这个层次的结构，是一棵根据XML文档生成的节点树。DOM在对XML文档进行分析之后，不管这个文档有多简单或者多复杂，其中的信息都会被转化成一棵对象节点树。在这颗节点树种，有一个根节点，其他所有的节点都是根节点的子节点。节点树生成之后，就可以通过DOM接口访问、修改、添加、删除树种的节点或内容了。

2.Node接口

Node接口在整个DOM树中具有举足轻重的地位，DOM接口中有很大一部分接口是从Node接口继承过来的，例如：Document（根节点）、Element（元素）、Attr（属性）、Comment（注释）、Text（元素或属性的文本内容）等接口都是从Node继承过来的。DOM树中，Node接口代表了树中的一个节点。Node接口的常用方法如下：

3.DOM解析XML

 1import java.io.File;   
 2   
 3 import javax.xml.parsers.DocumentBuilder;   
 4 import javax.xml.parsers.DocumentBuilderFactory;   
 5   
 6 import org.w3c.dom.Document;   
 7 import org.w3c.dom.NodeList;   
 8   
 9 public class MyXMLReader2DOM {   
10 public static void main(String arge[]) {   
11   
12   long lasting = System.currentTimeMillis();   
13   
14   try {   
15     File f = new File("data_10k.xml");   
16     DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();   
17     DocumentBuilder builder = factory.newDocumentBuilder();   
18     Document doc = builder.parse(f);   
19     NodeList nl = doc.getElementsByTagName_r("VALUE");   
20    for (int i = 0; i < nl.getLength(); i++) {   
21      System.out.print("车牌号码:"+ doc.getElementsByTagName_r("NO").item(i).getFirstChild().getNodeValue());   
22      System.out.println("车主地址:"+ doc.getElementsByTagName_r("ADDR").item(i).getFirstChild().getNodeValue());   
23     }   
24    } catch (Exception e) {   
25     e.printStackTrace();   
26    }   
27 }   
28 }

4.SAX解析XML

 1 import javax.xml.parsers.SAXParser;   
 2 import javax.xml.parsers.SAXParserFactory;   
 3   
 4 import org.xml.sax.Attributes;   
 5 import org.xml.sax.InputSource;   
 6 import org.xml.sax.SAXException;   
 7 import org.xml.sax.helpers.DefaultHandler;   
 8   
 9 public class MyXMLReader2SAX extends DefaultHandler {   
10   
11 java.util.Stack tags = new java.util.Stack();   
12   
13 public MyXMLReader2SAX() {   
14   super();   
15 }   
16   
17 public static void main(String args[]) {   
18   long lasting = System.currentTimeMillis();   
19   try {   
20     SAXParserFactory sf = SAXParserFactory.newInstance();   
21     SAXParser sp = sf.newSAXParser();   
22     MyXMLReader2SAX reader = new MyXMLReader2SAX();   
23     sp.parse(new InputSource("data_10k.xml"), reader);   
24    } catch (Exception e) {   
25     e.printStackTrace();   
26    }   
27   
28    System.out.println("运行时间：" + (System.currentTimeMillis() - lasting)   
29      + "毫秒");   
30 }   
31   
32 public void characters(char ch[], int start, int length)   
33    throws SAXException {   
34    String tag = (String) tags.peek();   
35   if (tag.equals("NO")) {   
36     System.out.print("车牌号码：" + new String(ch, start, length));   
37    }   
38   if (tag.equals("ADDR")) {   
39     System.out.println("地址:" + new String(ch, start, length));   
40    }   
41 }   
42   
43 public void startElement(String uri, String localName, String qName,   
44     Attributes attrs) {   
45    tags.push(qName);   
46 }   
47 }

相比于DOM，SAX是一种速度更快、更有效的解析XML文档的方法。它不需要一次性建立一个完整的DOM树，而是读取文档时激活事件进行处理。

DOM是W3C标准，提供的是标准的解析方式，但其解析效率一直不尽人意。这是因为DOM解析XML文档时，把所有内容一次性装载入内存，并构建一个驻留在内存中的节点树。如果需要解析的XML文档过大，或者只对该文档的一部分内容感兴趣，这种做法就会引起性能问题。

SAX既是一个接口，也是一个软件包。SAX在解析XML时是事件驱动型的，它的工作原理简单地说就是对文档进行顺序扫描，扫描到文档开始与结束、元素开始与结束等地方时通知事件处理程序，由事件处理程序做相应动作，然后继续同样的扫描，直到文档结束。SAX的缺点也很明显，要用SAX对XML文档进行解析时，就要实现多个事件处理程序，用来处理可能触发的事件，对程序员而言操作起来相对复杂。