Java基础37-XML解析

目前对XML解析技术有DOM和SAX。JDK提供了JAXP来使用DOM和SAX。

1.DOM树

DOM是XML文档的应用程序接口,它定义了对XML文档进行随机访问与操作的方法。DOM是一个与语言无关、与平台无关的标准接口规范。利用DOM,程序开发人员可以动态的创建XML文档,遍历文档结构,添加、修改、删除文档内容,改变文档的显示方式等。可以这样说,文档代表的是数据,而DOM则代表了如何去处理这些数据。

DOM把一个XML文档映射成一个分层对象模型,而这个层次的结构,是一棵根据XML文档生成的节点树。DOM在对XML文档进行分析之后,不管这个文档有多简单或者多复杂,其中的信息都会被转化成一棵对象节点树。在这颗节点树种,有一个根节点,其他所有的节点都是根节点的子节点。节点树生成之后,就可以通过DOM接口访问、修改、添加、删除树种的节点或内容了。

2.Node接口

Node接口在整个DOM树中具有举足轻重的地位,DOM接口中有很大一部分接口是从Node接口继承过来的,例如:Document(根节点)、Element(元素)、Attr(属性)、Comment(注释)、Text(元素或属性的文本内容)等接口都是从Node继承过来的。DOM树中,Node接口代表了树中的一个节点。Node接口的常用方法如下:

3.DOM解析XML

 1import java.io.File;   
 2   
 3 import javax.xml.parsers.DocumentBuilder;   
 4 import javax.xml.parsers.DocumentBuilderFactory;   
 5   
 6 import org.w3c.dom.Document;   
 7 import org.w3c.dom.NodeList;   
 8   
 9 public class MyXMLReader2DOM {   
10 public static void main(String arge[]) {   
11   
12   long lasting = System.currentTimeMillis();   
13   
14   try {   
15     File f = new File("data_10k.xml");   
16     DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();   
17     DocumentBuilder builder = factory.newDocumentBuilder();   
18     Document doc = builder.parse(f);   
19     NodeList nl = doc.getElementsByTagName_r("VALUE");   
20    for (int i = 0; i < nl.getLength(); i++) {   
21      System.out.print("车牌号码:"+ doc.getElementsByTagName_r("NO").item(i).getFirstChild().getNodeValue());   
22      System.out.println("车主地址:"+ doc.getElementsByTagName_r("ADDR").item(i).getFirstChild().getNodeValue());   
23     }   
24    } catch (Exception e) {   
25     e.printStackTrace();   
26    }   
27 }   
28 }  

4.SAX解析XML

 1 import javax.xml.parsers.SAXParser;   
 2 import javax.xml.parsers.SAXParserFactory;   
 3   
 4 import org.xml.sax.Attributes;   
 5 import org.xml.sax.InputSource;   
 6 import org.xml.sax.SAXException;   
 7 import org.xml.sax.helpers.DefaultHandler;   
 8   
 9 public class MyXMLReader2SAX extends DefaultHandler {   
10   
11 java.util.Stack tags = new java.util.Stack();   
12   
13 public MyXMLReader2SAX() {   
14   super();   
15 }   
16   
17 public static void main(String args[]) {   
18   long lasting = System.currentTimeMillis();   
19   try {   
20     SAXParserFactory sf = SAXParserFactory.newInstance();   
21     SAXParser sp = sf.newSAXParser();   
22     MyXMLReader2SAX reader = new MyXMLReader2SAX();   
23     sp.parse(new InputSource("data_10k.xml"), reader);   
24    } catch (Exception e) {   
25     e.printStackTrace();   
26    }   
27   
28    System.out.println("运行时间:" + (System.currentTimeMillis() - lasting)   
29      + "毫秒");   
30 }   
31   
32 public void characters(char ch[], int start, int length)   
33    throws SAXException {   
34    String tag = (String) tags.peek();   
35   if (tag.equals("NO")) {   
36     System.out.print("车牌号码:" + new String(ch, start, length));   
37    }   
38   if (tag.equals("ADDR")) {   
39     System.out.println("地址:" + new String(ch, start, length));   
40    }   
41 }   
42   
43 public void startElement(String uri, String localName, String qName,   
44     Attributes attrs) {   
45    tags.push(qName);   
46 }   
47 } 

相比于DOM,SAX是一种速度更快、更有效的解析XML文档的方法。它不需要一次性建立一个完整的DOM树,而是读取文档时激活事件进行处理。

DOM是W3C标准,提供的是标准的解析方式,但其解析效率一直不尽人意。这是因为DOM解析XML文档时,把所有内容一次性装载入内存,并构建一个驻留在内存中的节点树。如果需要解析的XML文档过大,或者只对该文档的一部分内容感兴趣,这种做法就会引起性能问题。

SAX既是一个接口,也是一个软件包。SAX在解析XML时是事件驱动型的,它的工作原理简单地说就是对文档进行顺序扫描,扫描到文档开始与结束、元素开始与结束等地方时通知事件处理程序,由事件处理程序做相应动作,然后继续同样的扫描,直到文档结束。SAX的缺点也很明显,要用SAX对XML文档进行解析时,就要实现多个事件处理程序,用来处理可能触发的事件,对程序员而言操作起来相对复杂。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值