DOM解析XML

本文深入介绍了DOM(Document Object Model)的概念及其在XML文档处理中的应用。DOM是一种标准接口,用于将XML文档转换为内存中的对象模型,便于进行读写操作。文章详细解释了DOM的核心概念——节点,以及各种节点类型如文档节点、元素节点、文本节点等,并通过实例演示如何使用Java进行DOM解析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

DOM

DOM(Document Object Model):W3C组织推荐的处理XML的标准接口.
http://www.w3.org/DOM/DOMTR.html

DOM特点:首先将整个XML文档读取到内存中才能进行某些操作,如果XML文档很大,则会影响性能。

DOM结构模型:
DOM的核心概念就是NODE(节点).DOM在分析XML文档时,将组成XML文档的各个部分(元素,属性,文本,注释,处理指令等)映射成一个对象,这个对象就叫做节点。在内存中这些节点形成一棵树。整棵树就是一个节点,树中的每一个节点也是一棵树。
DOM就是对这棵树的一个对象描述,我们通过访问树中的节点来存取XML文档的内容。

DOM解析器工厂:javax.xml.parsers.DocumentBuilderFactory
第一种使用其系统属性的方式:
System.setProperty("javax.xml.parsers.DocumentBuilderFactory","org.apache.xerces.jaxp.DocumentBuilderFactoryImpl");
第二种使用其系统属性的方式:
java -Djava.xml.parsers.DocumentBuilderFactory = oracle.xml.jaxp.JXDocumentBuilderFactory DOMTest
第三种方式:
如果不想使用JDK默认的解析器,比如使用apache的Xerces解析器,只需建立JRE\lib\endorsed目录,然后将xercesImpl.jar文件copy到其目录下。

DOM树中的节点类型:
DOM本质上是节点的集合。由于一个文档中可能包含不同类型的信息,因此要定义不同类型的节点。XML中最常见的节点类型:文档,元素,文本,属性,其他不常用的节点类型包括:注释,处理指令,文档类型,CDATA段,文档片段,实体,实体引用,记号。
文档节点:文档树的根节点,也是文档中其他所有节点的父节点。但是不是根元素,因为XML文档中注释,处理指令等可以出现在根元素之外,所以在构造DOM树时,根元素并不适合作为根节点,于是就有了文档节点。根元素则作为文档节点的子节点。文档节点通过org.w3c.dom.Document接口来实现。
元素节点:XML文档中的元素。通常元素拥有子元素,文本节点或两者结合。元素节点也是唯一能够拥有属性的节点类型。该节点通过org.w3c.dom.Element接口来实现。
文本节点:只包含文本内容(在XML中称为字符数据)的节点,它可以由更多信息组成,也可包含空白。在文档树中元素跟属性的文本内容都是由文本节点来表示的。该节点通过org.w3c.dom.Text接口来实现,Text接口继承CharacterData接口。
属性节点:元素中的属性。属性实际上是附属元素的,所以属性节点不能被看作是元素的子节点,即属性没有被认为是文档树的一部分,例如在属性节点上调用getParentNode(),getPreviousSibling()和getNextSibling()返回都是NULL。
也就是说属性节点被看作包含他的元素节点的一部分,它并不作为单独的一个节点在文档树中出现。该节点通过org.w3c.dom.Attribute接口来实现。
注释节点:该节点通过org.w3c.dom.Comment接口来实现。
处理指令节点:表示XML文档中的处理指令。该节点通过org.w3c.dom.ProcessingInstruction接口来实现。
文档类型节点:每一个Document都有一个doctype属性,其值炜null或DocumentType对象。该节点通过org.w3c.dom.DocumentType接口来实现。
CDATA段节点表示XML文档中的CDATA段。该节点通过org.w3c.dom.CDAT
ASection接口来实现。该接口继承自Text接口。
实体节点:XML文档中已分析或未分析实体。该节点通过org.w3c.dom.Entity接口来实现。
实体引用节点:DOM树中的一个实体引用。该节点通过org.w3c.dom.EntityReference接口来实现。
记号节点:在DTD中声明的记号。该节点通过org.w3c.dom.Notation接口来实现。


NodeList接口:提供了一个有序节点集合的抽象。该方法下定义了两个方法:
1.int getLength():该方法返回列表中节点的数目。
2.Node item(int index):该方法返回集合中指定索引的节点。集合中的索引从0开始。
注意:DOM中的NodeList对象是动态的。eg.使用Node接口的getChildNodes()得到一个节点的子节点列表,然后你调用insertBefore(),appendChild(),replaceChild()和removeChild()等任何一个方法,都将影响到NodeList对象,也就是说此时再调用getLength()和item()将返回与先前不同的值。

org.w3c.dom.NamedNodeMap接口:也是节点的集合。通过该接口可以建立节点名跟节点之间的一一映射,从而利用节点名直接访问对应的节点。
注意:该接口无序。并不是继承自NodeList接口。并且该接口也是动态的。
eg.在某个元素节点上调用getAttributes()将返回一个包含属性名和属性节点映射的NamedNodeMap对象。



DOM实例一:得到文本节点的内容
students.xml
Java代码 收藏代码
  1. <?xmlversion="1.0"encoding="gb2312"?>
  2. <?xml-stylesheettype="text/xml"href="students.xsl">
  3. <students>
  4. <studentsn="01">
  5. <name>张三</name>
  6. <age>11</age>
  7. </student>
  8. <studentsn="02">
  9. <name>李四</name>
  10. <age>14</age>
  11. </student>
  12. </students>

java类:DOMStudentInfo.java
Java代码 收藏代码
  1. importjava.io.File;
  2. importjava.io.IOException;
  3. importjavax.xml.parsers.DocumentBuilder;
  4. importjavax.xml.parsers.DocumentBuilderFactory;
  5. importjavax.xml.parsers.ParserConfigurationException;
  6. importorg.w3c.dom.Document;
  7. importorg.w3c.dom.Element;
  8. importorg.w3c.dom.Node;
  9. importorg.w3c.dom.NodeList;
  10. importorg.xml.sax.SAXException;
  11. publicclassDOMStudentInfo{
  12. /**
  13. *@paramargs
  14. */
  15. publicstaticvoidmain(String[]args){
  16. DocumentBuilderFactorydbf=DocumentBuilderFactory.newInstance();
  17. try{
  18. DocumentBuilderdb=dbf.newDocumentBuilder();
  19. Documentdoc=db.parse(newFile("students.xml"));
  20. NodeListnl=doc.getElementsByTagName("student");
  21. intlen=nl.getLength();
  22. for(inti=0;i<len;i++){
  23. ElementeltStu=(Element)nl.item(i);
  24. NodeeltName=eltStu.getElementsByTagName("name").item(0);
  25. NodeeltAge=eltStu.getElementsByTagName("age").item(0);
  26. //注意:此时不能用eltName.getNodeValue()得到“张三”的值
  27. //因为"张三"这个文本节点是name的子节点,所以得调用
  28. //eltName.getFirstChild().getNodeValue()来得到"张三"的值
  29. System.out.println("name:"+eltName.getFirstChild().getNodeValue());
  30. System.out.println("age:"+eltAge.getFirstChild().getNodeValue());
  31. }
  32. }catch(ParserConfigurationExceptione){
  33. e.printStackTrace();
  34. }catch(SAXExceptione){
  35. e.printStackTrace();
  36. }catch(IOExceptione){
  37. e.printStackTrace();
  38. }
  39. }
  40. }

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值