xml是为了提高web数据交换量而出现的,虽然他现在web应用中并不广泛,但是由于他的格式良好,经常被用做配置文件的格式。比如tomcat的主配置文件server.xml,web.xml等等。
首先我们看一下需求。我们的目的主要是提取xml文件中的特定内容,又因为xml文件本身的格式良好,这种查询是非常有规律的,非常有利于我们找到需要的信息。有时我们还可能把特定信息写回xml中,但是这种需求并不是必需的,因为配置文件都不会太大,我们完全可以通过手工办法进行修改。
(在对xml编程即对xml文档实施CRUD的操作,首先要了解的是xml文档的解析技术都有哪些!)
对xml进行解析的标准有两种,sax以及dom。
l 首先这两种标准并不是针对java的,他们在各种语言环境下都可以实现。
l dom:(Document Object Model,即文档对象模型) 是 W3C 组织推荐的处理 XML 的一种方式,dom是真正的国际标准。
l sax:(Simple API for XML) 不是官方标准,是事实的标准,几乎所有的 XML 解析器都支持它。他不由任何商业组织维护,而是由一个非商业的组织在运作。就像iso7层模型和tcp/ip一样,虽然sax不是正式的标准,但是一点不影响他在xml解析领域的地位。
dom实现的原理是把整个xml文档一次性读出,放在一个树型结构里。在需要的时候,查找特定节点,然后对节点进行读或写。他的主要优势是实现简单,读写平衡;缺点是比较占内存,因为他要把整个xml文档都读入内存,文件越大,这种缺点就越明显。
sax的实现方法和dom不同。他只在xml文档中查找特定条件的内容,并且只提取需要的内容。这样做占用内存小,灵活,正好满足我们的需求。他的缺点就是写,有些资料介绍了写入的方法,但是我感觉这对本例没有必要。后面主要讲解用sax2.0实现xml文档解析。
解析器:Crimson(SUN)、Xerces(Apache) 、Aelfred2(dom4j)
我们现在已经不再用这些解析器做xml编程了。因为在这些解析器之上我们为这些解析器提供了开发工具包,即对解析器做了进一步的封装,形成了开发包,来进行xml编程。
开发工具包:Jaxp、Jdom、dom4j
JAXP 开发包是J2SE的一部分,它由javax.xml、org.w3c.dom 、org.xml.sax 包及其子包组成。JAXP相当于jdbc
有一个xml文档需要通过解析器来进行解析(下面有多种解析器),JAXP提供了这样一个支持,起到什么作用?通过JAXP找到解析器。通过JAXP创建解析器,通过解析器来完成xml文档的解析。
在 javax.xml.parsers 包中,定义了几个工厂类,程序员调用这些工厂类,可以得到对xml文档进行解析的 DOM 或 SAX 的解析器对象。
.。
通过想创建dom的解析器,来解析xml文档。
javax.xml.parsers 包(打开帮助文档,讲解一下)中的DocumentBuilderFactory用于创建DOM模式的解析器对象, DocumentBuilderFactory是一个抽象工厂类,它不能直接实例化,但该类提供了一个newInstance方法 ,这个方法会根据本地平台默认安装的解析器,自动创建一个工厂的对象并返回。
l 调用DocumentBuilderFactory.newInstance() 方法得到创建 DOM 解析器的工厂。
DocumentBuilderFactoryfactory= DocumentBuilderFactory.newInstance();
l 调用工厂对象的newDocumentBuilder方法得到 DOM 解析器对象。
DocumentBuilder db=factory.newDocumentBuilder();
l 调用 DOM 解析器对象的 parse() 方法解析 XML 文档,得到代表整个文档的 Document 对象,进行可以利用DOM特性对整个XML文档进行操作了。通过parse()装载一个xml文档。
Documentdoc=Db.parse(DemoTest.class.getClassLoader().getResourceAsStream(“book.xml”));
或者直接db.parse(new File(src/book.xml));
接下来就要介绍文档对象模型dom了。
首先讲一下sax的工作流程,以下面的book.xml为例(不做dtd定义的验证,如果有这方面需求,可以查更详细的文档)。
<?xml version="1.0"?>
<books>
<book type="computer">
<title>java 2</title>
<page>600</page>
<author>Jim</author>
</book>
<booktype="fiction">
<title>fly tomoon</title>
<page>300</page>
<author>Vernia</author>
</book>
</books>
1.我们需要注册一个实现了sax标准的解析器,sun,java,apache等厂商和组织都实现了自己的解析器,大家可以直接拿过来用。
2.然后告诉解析器,我们会用哪个xml解析程序来处理xml文档。这个解析程序是由我们自己来实现的。
3在解析开始时,解析器会触发解析程序的startDocument()方法,告诉应用程序,文档解析开始了。
要注意以下几点:
1.区分解析器,解析程序的概念。
2.sax实现是事件驱动的,由解析器触发应用程序,而不是由应用程序来调用解析器。这和ui里的Actionlistener实现差不多。
3.startDocument()方法是由ContentHandler接口定义的,我们必须要实现他。xml解析程序就是用来实现这些方法的。为什么要这么做?因为sax不会定义在接收到方法触发后,会采取什么动作。只有我们自己才知道在解析的过程中,我们会做什么。不明白没有关系,再往下看。
4.当遇到<books>后,解析器会触发解析程序的startElement()方法,告诉应用程序,我遇到一个开始的标签。这个startElement()方法也是由ContentHandler接口定义的,他只是提醒应用程序他遇到一个标签的开始,至于是什么标签,他不知道,也不想知道。而由xml解析程序实现了的startElement()方法,功能就大了。比如我们可以判断这个标签的内容是什么,如果是books,好,正是我们需要的,要记到内存里;如果不是,放弃,继续往下走。
5.过了<books>后,解析器会触发解析程序的characters()方法,告诉应用程序,我遇到了标签的内容。同样的原理,由xml解析程序实现了的characters()方法会处理这个内容。当然了如果是我们需要的,就留下;如果不是就放弃。在这个例子里,<books>后面是空格,没有实际价值。
6.再往下遇到了<book type="computer">标签,同样触发的是startElement()方法。以此类推,在标签结束时,会触发endElement()方法,在文档结束时会触发endDocument()方法。至于每次触发一个方法后,产生什么动作,都是由我们的解析程序来控制的。
5536

被折叠的 条评论
为什么被折叠?



