上一篇文章使用了DOM解析XML文件,本篇文章将使用SAX解析XML。
DOM与SAX解析的不同之处在于:DOM解析会将XML全部加载到内存中,再进行解析;而SAX解析有一个Handler,该Handler将对每个节点逐个进行解析。
SAX解析的步骤:
- 通过SAXParserFactory的静态方法newInstance()获取SAXParserFactory的实例。
- 通过SAXParserFactory实例的newSAXParser()方法获取SAXParser的实例。
- 创建一个类,继承DefaultHandler,并重写startElement()方法(用来遍历xml的开始节点)、endElement()方法(用来遍历xml的结束节点)、startDocument()方法(用来标志解析开始)、endDocument()方法(用来标志解析结束)
这里使用的XML文件和Book类与DOM解析时的完全相同,这里就不再赘述,直接给出代码:
books.xml:
<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
<book id="1">
<name>冰与火之歌</name>
<author>乔治马丁</author>
<price>89</price>
</book>
<book id="2">
<name>安徒生童话</name>
<author>安徒生</author>
<price>24</price>
</book>
</bookstore>
Book.java:
package domain;
public class Book {
private int id;
private String name;
private String author;
private float price;
public int getId() {
return id;
}
public void setId(int id) {
this.id = id;
}
public String getName() {
return name;
}
public void setName(String name) {
this.name = name;
}
public String getAuthor() {
return author;
}
public void setAuthor(String author) {
this.author = author;
}
public float getPrice() {
return price;
}
public void setPrice(float price) {
this.price = price;
}
@Override
public String toString() {
return "Book [id=" + id + ", name=" + name + ", author=" + author + ", price=" + price + "]";
}
}
在文章开始已经提到,SAX解析会用到一个Handler类,该类中包含了标志解析开始和结束、遍历XML文件的开始节点和结束节点的方法,我们需要继承DefaultHandler类并重写这些方法,来实现我们自己的Handler,从而完成我们所需的功能。
DefaultHandler类中有四个方法:
- startDocument()方法:用于标志开始对XML文件解析
- endDocument()方法:用于标志结束对XML文件解析
- startElement()方法:用于遍历开始节点(如
<book>
) - endElement()方法:用于遍历结束节点(如
</book>
) - characters()方法:用于解析、处理开始节点与结束节点之间的内容(如
<name>围城</name>
中的“围城”二字)
我们需要对以上方法进行重写,来实现我们的要求。
重写startDocument()方法:
startDocument()方法用于标志开始对XML文件进行解析,这里我们暂时不需要进行其他额外操作,故我们就输出一句话。
@Override
public void startDocument() throws SAXException {
super.startDocument();
System.out.println("SAX解析开始..");
}
同理,重写endDocument()方法:
@Override
public void endDocument() throws SAXException {
super.endDocument();
System.out.println("SAX解析结束..");
}
这样,当解析开始和结束时,会分别有提示信息输出,供我们查看。
重写startElement()方法:
startElement()方法是用于遍历开始节点的,即解析每个开始节点都会执行startElement()方法。
在books.xml文件中,有两本书,并且每一本书的<book>
节点都有一个id属性,故在解析<book>
节点时,需要获取其id属性值。
在startElement()方法的参数中:
- qName代表当前解析的开始节点的名称
- attributes代表当前节点的所有属性
@Override
public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
super.startElement(uri, localName, qName, attributes);
/*
* 解析开始节点的属性 qName是当前解析的节点名称 attributes是当前解析的节点的所有属性
* 如果当前解析的是book节点,那么就解析他的属性值(id) 因为当前XML文件中只有book节点具有属性
*/
if ("book".equals(qName)) {
book = new Book();// 如果判断当前解析的为一个book,则创建一个Book对象用于封装属性
// 如果已经知道有哪些属性,则可以直接获取该属性的值
/*
* String idString = attributes.getValue("id");
* System.out.println(idString);
*/
// 如果不知道有哪些属性,则遍历所有属性
for (int i = 0; i < attributes.getLength(); ++i) {
String attrName = attributes.getQName(i);// 获取节点的属性名
if("id".equals(attrName)){
String attrValue = attributes.getValue(i);// 获取节点的属性值
book.setId(Integer.valueOf(attrValue));
}
}
}
}
重写characters()方法:
characters()方法用于解析开始节点与结束节点之间的内容,通过这个方法,我们可以对“值”进行处理。
这里我们只是需要获取“值”,所以只需将其存储下来即可。
其中,start代表开始位置,length代表值的长度。
@Override
public void characters(char[] ch, int start, int length) throws SAXException {
super.characters(ch, start, length);
/*
* 利用节点值创建一个字符串(有可能是换行或空格形成的无效字符串)
* 并赋值给成员变量value
* 成员变量value用于存储节点的值
*/
value = new String(ch, start, length);
}
重写endElement()方法:
endElement()方法用于遍历结束节点,即解析每个结束节点都会执行endElement()方法。
方法的参数中:
- qName代表当前结束节点的名称
在遍历到每个结束节点之后,都需要将该节点的值进行封装,由于值已经由characters()方法处理并存入全局变量value
中,所以我们只需要判断当前结束节点是哪一个节点,然后将value
中的值封装成实例中相应的属性即可。
@Override
public void endElement(String uri, String localName, String qName) throws SAXException {
super.endElement(uri, localName, qName);
/*
* 将characters()方法中获取到的属性值存入Book对象 存入哪个对象由qName决定
*/
switch (qName) {
case "name":
book.setName(value);
break;
case "author":
book.setAuthor(value);
break;
case "price":
book.setPrice(Float.valueOf(value));
break;
case "book":
list.add(book);
book = null;//置为null,将对象交给垃圾回收机制处理
break;
}
}
至此,MyHandler类就完成了。
只有MyHandler类并不能完成对XML文件的解析,它只是定义了“在对XML文件解析过程中,对每一部分的操作是怎样的”。
我们还需要一个工具类来实现解析的功能。
定义一个ParseUtil类:
- 通过SAXParserFactory的静态方法newInstance()获取SAXParserFactory的实例
- 通过SAXParserFactory实例的newSAXParser()方法创建SAXParser类的实例
- 使用SAXParser实例的parse()方法对传入的文件进行解析,并指定使用我们自己定义的MyHandler类来执行解析时的操作。
package util;
import java.io.File;
import java.io.IOException;
import java.util.List;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import org.xml.sax.SAXException;
import domain.Book;
public class ParseUtil {
public static void parseBySAX(File file) {
// 通过SAXParserFactory的静态方法newInstance()获取SAXParserFactory的实例
SAXParserFactory factory = SAXParserFactory.newInstance();
try {
// 通过SAXParserFactory的实例的newSAXParser()方法获取SAXParser实例
SAXParser parser = factory.newSAXParser();
// 定义一个自己的Handler类,继承DefaultHandler
MyHandler handler = new MyHandler();
parser.parse(file, handler);
List<Book> list = handler.getList();
System.out.println("共有" + list.size() + "本书");
for(int i=0; i<list.size(); ++i){
System.out.println("第" + (i+1) + "本书");
System.out.println(list.get(i));
}
} catch (IOException e) {
e.printStackTrace();
} catch (ParserConfigurationException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
}
}
}
这样,就实现了通过SAX方式解析XML文件的功能。自行定义一个测试类并执行测试,结果如下:
SAX解析开始..
SAX解析结束..
共有2本书
第1本书
Book [id=1, name=冰与火之歌, author=乔治马丁, price=89.0]
第2本书
Book [id=2, name=安徒生童话, author=安徒生, price=24.0]