Java——SAX解析XML文件

本文介绍了使用SAX解析XML文件的方法,与DOM解析的区别在于SAX不会将XML全部加载到内存,而是逐个节点解析。详细步骤包括:获取SAXParserFactory和SAXParser实例,创建继承DefaultHandler的自定义Handler,重写startDocument、endDocument、startElement、endElement等方法,以及如何处理节点内容。最后通过ParseUtil类调用parse方法实现解析。

上一篇文章使用了DOM解析XML文件,本篇文章将使用SAX解析XML。

DOM与SAX解析的不同之处在于:DOM解析会将XML全部加载到内存中,再进行解析;而SAX解析有一个Handler,该Handler将对每个节点逐个进行解析。


SAX解析的步骤:

  1. 通过SAXParserFactory的静态方法newInstance()获取SAXParserFactory的实例。
  2. 通过SAXParserFactory实例的newSAXParser()方法获取SAXParser的实例。
  3. 创建一个类,继承DefaultHandler,并重写startElement()方法(用来遍历xml的开始节点)、endElement()方法(用来遍历xml的结束节点)、startDocument()方法(用来标志解析开始)、endDocument()方法(用来标志解析结束)

这里使用的XML文件和Book类与DOM解析时的完全相同,这里就不再赘述,直接给出代码:

books.xml:

<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
    <book id="1">
        <name>冰与火之歌</name>
        <author>乔治马丁</author>
        <price>89</price>
    </book>
    <book id="2">
        <name>安徒生童话</name>
        <author>安徒生</author>
        <price>24</price>
    </book>
</bookstore>

Book.java:

package domain;

public class Book {
    private int id;
    private String name;
    private String author;
    private float price;

    public int getId() {
        return id;
    }

    public void setId(int id) {
        this.id = id;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public String getAuthor() {
        return author;
    }

    public void setAuthor(String author) {
        this.author = author;
    }

    public float getPrice() {
        return price;
    }

    public void setPrice(float price) {
        this.price = price;
    }

    @Override
    public String toString() {
        return "Book [id=" + id + ", name=" + name + ", author=" + author + ", price=" + price + "]";
    }

}

在文章开始已经提到,SAX解析会用到一个Handler类,该类中包含了标志解析开始和结束、遍历XML文件的开始节点和结束节点的方法,我们需要继承DefaultHandler类并重写这些方法,来实现我们自己的Handler,从而完成我们所需的功能。

DefaultHandler类中有四个方法:

  • startDocument()方法:用于标志开始对XML文件解析
  • endDocument()方法:用于标志结束对XML文件解析
  • startElement()方法:用于遍历开始节点(如<book>
  • endElement()方法:用于遍历结束节点(如</book>
  • characters()方法:用于解析、处理开始节点与结束节点之间的内容(如<name>围城</name>中的“围城”二字)

我们需要对以上方法进行重写,来实现我们的要求。


重写startDocument()方法:
startDocument()方法用于标志开始对XML文件进行解析,这里我们暂时不需要进行其他额外操作,故我们就输出一句话。

@Override
public void startDocument() throws SAXException {
    super.startDocument();
    System.out.println("SAX解析开始..");
}

同理,重写endDocument()方法:

@Override
public void endDocument() throws SAXException {
    super.endDocument();
    System.out.println("SAX解析结束..");
}

这样,当解析开始和结束时,会分别有提示信息输出,供我们查看。


重写startElement()方法:

startElement()方法是用于遍历开始节点的,即解析每个开始节点都会执行startElement()方法。

在books.xml文件中,有两本书,并且每一本书的<book>节点都有一个id属性,故在解析<book>节点时,需要获取其id属性值。

在startElement()方法的参数中:

  • qName代表当前解析的开始节点的名称
  • attributes代表当前节点的所有属性
@Override
public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
    super.startElement(uri, localName, qName, attributes);
    /*
     * 解析开始节点的属性 qName是当前解析的节点名称 attributes是当前解析的节点的所有属性
     * 如果当前解析的是book节点,那么就解析他的属性值(id) 因为当前XML文件中只有book节点具有属性
     */
    if ("book".equals(qName)) {
        book = new Book();// 如果判断当前解析的为一个book,则创建一个Book对象用于封装属性

        // 如果已经知道有哪些属性,则可以直接获取该属性的值
        /*
         * String idString = attributes.getValue("id");
         * System.out.println(idString);
         */

        // 如果不知道有哪些属性,则遍历所有属性
        for (int i = 0; i < attributes.getLength(); ++i) {
            String attrName = attributes.getQName(i);// 获取节点的属性名
            if("id".equals(attrName)){
                String attrValue = attributes.getValue(i);// 获取节点的属性值
                book.setId(Integer.valueOf(attrValue));
            }
        }
    }

}

重写characters()方法:
characters()方法用于解析开始节点与结束节点之间的内容,通过这个方法,我们可以对“值”进行处理。

这里我们只是需要获取“值”,所以只需将其存储下来即可。
其中,start代表开始位置,length代表值的长度。

@Override
public void characters(char[] ch, int start, int length) throws SAXException {
    super.characters(ch, start, length);
    /*
     * 利用节点值创建一个字符串(有可能是换行或空格形成的无效字符串)
     * 并赋值给成员变量value
     * 成员变量value用于存储节点的值
     */
    value = new String(ch, start, length);
}

重写endElement()方法:
endElement()方法用于遍历结束节点,即解析每个结束节点都会执行endElement()方法。

方法的参数中:
- qName代表当前结束节点的名称

在遍历到每个结束节点之后,都需要将该节点的值进行封装,由于值已经由characters()方法处理并存入全局变量value中,所以我们只需要判断当前结束节点是哪一个节点,然后将value中的值封装成实例中相应的属性即可。

@Override
public void endElement(String uri, String localName, String qName) throws SAXException {
    super.endElement(uri, localName, qName);
    /*
     * 将characters()方法中获取到的属性值存入Book对象 存入哪个对象由qName决定
     */
    switch (qName) {
    case "name":
        book.setName(value);
        break;
    case "author":
        book.setAuthor(value);
        break;
    case "price":
        book.setPrice(Float.valueOf(value));
        break;
    case "book":
        list.add(book);
        book = null;//置为null,将对象交给垃圾回收机制处理
        break;
    }
}

至此,MyHandler类就完成了。


只有MyHandler类并不能完成对XML文件的解析,它只是定义了“在对XML文件解析过程中,对每一部分的操作是怎样的”。

我们还需要一个工具类来实现解析的功能。

定义一个ParseUtil类:

  • 通过SAXParserFactory的静态方法newInstance()获取SAXParserFactory的实例
  • 通过SAXParserFactory实例的newSAXParser()方法创建SAXParser类的实例
  • 使用SAXParser实例的parse()方法对传入的文件进行解析,并指定使用我们自己定义的MyHandler类来执行解析时的操作。
package util;

import java.io.File;
import java.io.IOException;
import java.util.List;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;

import org.xml.sax.SAXException;

import domain.Book;

public class ParseUtil {

    public static void parseBySAX(File file) {
        // 通过SAXParserFactory的静态方法newInstance()获取SAXParserFactory的实例
        SAXParserFactory factory = SAXParserFactory.newInstance();
        try {
            // 通过SAXParserFactory的实例的newSAXParser()方法获取SAXParser实例
            SAXParser parser = factory.newSAXParser();

            // 定义一个自己的Handler类,继承DefaultHandler
            MyHandler handler = new MyHandler();
            parser.parse(file, handler);

            List<Book> list = handler.getList();

            System.out.println("共有" + list.size() + "本书");
            for(int i=0; i<list.size(); ++i){
                System.out.println("第" + (i+1) + "本书");
                System.out.println(list.get(i));
            }

        } catch (IOException e) {
            e.printStackTrace();
        } catch (ParserConfigurationException e) {
            e.printStackTrace();
        } catch (SAXException e) {
            e.printStackTrace();
        }

    }

}

这样,就实现了通过SAX方式解析XML文件的功能。自行定义一个测试类并执行测试,结果如下:

SAX解析开始..
SAX解析结束..
共有2本书
第1本书
Book [id=1, name=冰与火之歌, author=乔治马丁, price=89.0]2本书
Book [id=2, name=安徒生童话, author=安徒生, price=24.0]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值