XML解析之一——SAX解析详解

最新推荐文章于 2020-11-21 15:16:44 发布

原创最新推荐文章于 2020-11-21 15:16:44 发布 · 3.2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#xml #文档 #servlet #数据结构 #warnings #多线程

本文介绍SAX解析的基本原理及其实现方法，包括SAX解析的核心思路、事件模型、事件处理器等关键概念，并通过一个具体的示例展示了如何使用SAX解析器处理XML数据。

JAXP(Java API for XML Processing)为打包器提供了两种不同的处理XML数据的机制，第一种是XML的简单API（Simple API for XML,即SAX），第二种是文档对象模型（Document Object Model，即DOM）。

SAX解析

核心思路：

在SAX模型中，XML文档作为一系列的事件提供给应用程序，每个事件表示XML文档的一种转换。

SAX解析优缺点：

SAX解析的利用事件进行处理可以处理很大的文档，并且不必立即将整个文档读入内存。然而使用XML文档的片段可能会变得复杂，因为开发人员必须跟踪给定片段的所有事件。

SAX是个广泛使用的标准，但不受任何行业团体控制。现在SAX得到开源项目http://www.saxproject.org的支持。

SAX事件模型：

SAX事件包括：文档事件（通知程序一个XML文档的开始和结束）、元素事件（通知程序每个元素的开始和结束）、字符事件（通知程序在元素之间找到的任何字符数据，包括文本、实体和CDATA段），还有不常见的事件：命名空间、实体和实体声明、可忽略的空白、处理指令。

SAX事件处理器：

1. ContentHandler

ContentHanler是任何SAX解析器的核心接口。它定义了在SAX API中最常用的10个回调函数。

2. DefaultHandler

具体实现了ContentHandler接口，允许集中于常用的事件。可以使用自己的子类扩展（extends）DefaultHandler类。

基本的SAX回调函数：

1. 文档回调

public void startDocument() throws SAXException;

SAX通过调用该函数来开始每次解析。

public void endDocument() throws SAXException;

SAX通过调用该函数来表示解析的结束。

2. 元素回调

public void startElement(String uri, String localName, String qName, Attributes atts) throws SAXException;

qName是元素的名称；元素的属性可以依据名称简单地进行引用。

如，String value = atts.getValue("id"); //返回id属性的值

3. 字符回调

public void characters(char[] ch, int start, int length) throws SAXException;

SAX解析器将字符读入数组ch，start表示偏移，length提供读取的数量。

事件处理器实例：

提供Inventory(公司产品库存）的XML文档，如下：

<?xml version="1.0" encoding="UTF-8"?>

<ITEM>

<DESCRIPTION>widget</DESCRIPTION>

</ITEM>

<ITEM>

<DESCRIPTION>gadget</DESCRIPTION>

</ITEM>

<ITEM>

<DESCRIPTION>rocket</DESCRIPTION>

</ITEM>

</INVENTORY>

事件处理器读取上述XML文档并将其转换为业务对象（Item）。解析之后，客户应用程序才可以进行进一步操作业务对象。代码如下：

import org.xml.sax.helpers.DefaultHandler;

import org.xml.sax.SAXException;

import org.xml.sax.Attributes;

/**

*从XML文档中解析出库存项目

**/

public class InventoryHandler extends DefaultHandler{

private Item currentItem; //项目模型对象

private ItemCollection items; //解析结果保存器

private StringBuffer characters; //保存元素内容的缓冲区

//字符事件回调函数

public void characters(char[] ch, int start, int length) throws SAXException{

characters.append(ch, start, length);

}

//文档开始事件回调函数

public void startDocument() throws SAXException {

//解析该文档前进行初始化

characters = new StringBuffer();

items = new ItemCollection();

}

//处理每个元素开始的回调函数

public void startElement(String uri, String localName, String qName, Attributes attrs) throws SAXException {

if(qName.equals("ITEM")){

currentItem = new Item();

}

//为元素内容准备字符缓冲区

characters = new StringBuffer();

}

//处理每个元素结束的回调函数

public void endElement(String uri, String localName, String qName) throws SAXException{

//从缓冲区读取元素内容

String content = charcters.toString();

if(qName.equals("SKU")){

currentItem.setSKU(content);

}

else if(qName.equals("QUANTITY"){

currentItem.setQuantity(content);

}

else if(qName.equals("ITEM"){

items.add(currentItem);

}

对Inventory.xml的解析过程：（认真理解这个过程）

1. 文档开始，解析器触发startDocumet回调。通过初始化解析器所需的数据结构开始。

2. <INVENTORY>元素，解析器触发它的第一个startElement回调。库存元素没有告诉任何有用的事情，所以可继续前进而无需执行任何特定的处理。

3. <ITEM>元素，解析器触发第二个startElement回调。现在解析有关特定项目的信息。此时可以创建新的数据结构，来保存下一个项目的信息。

4. <SKU>元素，解析器触发另一个startElement回调。将要读取有关SKU的信息，但是必须等待其后SKU自身的character事件。

5. 元素内容，解析器通过一次或多次characters回调来传递SKU数据自身。将字符数据收集到缓冲区中。

6. </SKU>，解析器触发第一个endElement回调，告知已经完成了该元素的读取，并将该内容解释为SKU并将其添加到模型对象中。

7. <QUANTITY>和<DESCRIPTION/>元素。与处理SKU元素的方式大致相同，对每个元素重复步骤4-6。对于这个案例，忽略DESCRIPTION元素。SAX允许保存文档的某些部分，而完全过滤掉其他部分。

8. </ITEM>元素，通过endElement回调，已经完整读取了一个项目。将此项目添加到集合中用来后续检索。

9. </ITEM>，如果这个文档中包含附加的项目，那么将重复步骤3-8，直到读取完所有项目。

10. </INVENTORY>，解析器触发最后一个endElement回调函数。

11. 最后解析器以endDocument回调终止。

创建SAX解析器：

JAXP允许以一种完全可移植的方式来构造解析器，它提供了一种抽象工厂机制，可用于构造解析器，而无需考虑底层实现。

如下：

SAXParser factory = SAXParserFactory.newInstance();

SAXParser parser = factory.newSAXParser();

使用SAX解析器解析数据：

输入源：

基于URI的源 >

InputSource fromFile = new InputSource("file://" + fileName);

InputSource fromWeb = new InputSource("http://www.....");

基于流的源 >

InputSource byteSource = new InputSource(someInputStream);

InputSource charSource = new InputSource(someReader);

byteSource.setEncoding("UTF-8"); //设置字节流输入源的编码方案

完整的SAX解析实例：

InventoryHandler类：

import org.xml.sax.helpers.DefaultHandler;

import org.xml.sax.SAXException;

import org.xml.sax.Attributes;

/**

*从XML文档中解析出库存项目

**/

public class InventoryHandler extends DefaultHandler {

private Item currentItem; // 项目模型对象

private ItemCollection items; // 解析结果保存器

private StringBuffer characters; // 保存元素内容的缓冲区

// 字符事件回调函数

public void characters(char[] ch, int start, int length)

throws SAXException {

characters.append(ch, start, length);

}

// 文档开始事件回调函数

public void startDocument() throws SAXException {

// 解析该文档前进行初始化

characters = new StringBuffer();

items = new ItemCollection();

}

// 处理每个元素开始的回调函数

public void startElement(String uri, String localName, String qName,

Attributes attrs) throws SAXException {

if (qName.equals("ITEM")) {

currentItem = new Item();

}

// 为元素内容准备字符缓冲区

characters = new StringBuffer();

}

// 处理每个元素结束的回调函数

public void endElement(String uri, String localName, String qName)

throws SAXException {

// 从缓冲区读取元素内容

String content = characters.toString();

if (qName.equals("SKU")) {

currentItem.setSKU(content);

} else if (qName.equals("QUANTITY")) {

currentItem.setQuantity(content);

} else if (qName.equals("ITEM")) {

items.add(currentItem);

}

public ItemCollection getParseResults(){

return items;

}

Item类：

public class Item {

private String SKU;

private int QUANTITY;

public String getSKU(){

return this.SKU;

}

public int getQUANTITY(){

return this.QUANTITY;

}

public void setQuantity(String content) {

// TODO Auto-generated method stub

try{

this.QUANTITY = Integer.parseInt(content);

}

catch(Exception ex){

System.out.println("数字格式异常");

}

public void setSKU(String content) {

// TODO Auto-generated method stub

this.SKU = content;

}

ItemCollection类：

import java.util.ArrayList;

import java.util.Iterator;

public class ItemCollection {

private static ArrayList<Item> itemCollection = new ArrayList<Item>();

public void add(Item currentItem) {

itemCollection.add(currentItem);

}

public Iterator iterator(){

return itemCollection.iterator();

}

以下使用InventoryServlet.java类或者InventoryInfoGet获取解析得到的库存信息

InventoryServlet类

import java.io.IOException;

import java.util.Iterator;

import javax.servlet.ServletException;

import javax.servlet.ServletOutputStream;

import javax.servlet.http.HttpServlet;

import javax.servlet.http.HttpServletRequest;

import javax.servlet.http.HttpServletResponse;

import javax.xml.parsers.ParserConfigurationException;

import javax.xml.parsers.SAXParser;

import javax.xml.parsers.SAXParserFactory;

import org.xml.sax.InputSource;

import org.xml.sax.SAXException;

public class InventoryServlet extends HttpServlet {

//共享解析器工厂的一个实例

private SAXParserFactory parserFactory;

//初始化Servlet

public void init() throws ServletException {

parserFactory = SAXParserFactory.newInstance();

}

//处理对该Servlet的get请求

public void doGet(HttpServletRequest request, HttpServletResponse response) throws IOException, ServletException {

//构造自定义的事件处理器

InventoryHandler eventHandler = new InventoryHandler();

//获取SAX解析器实例

SAXParser parser = null;

try{

parser = parserFactory.newSAXParser();

}

catch(ParserConfigurationException pce){

throw new ServletException("Error constructing parser.", pce);

}

catch(SAXException se){

throw new ServletException("Error constructing parser.", se);

}

try{

//提供XML文档

String uri = "src/Inventory.xml";

InputSource sourceDoc = new InputSource(uri);

//开始解析

parser.parse(sourceDoc, eventHandler);

}

catch(SAXException se){

throw new ServletException("Error parsign inventory.", se);

}

//检查并打印结果

ItemCollection items = eventHandler.getParseResults();

printItems(items, response.getOutputStream());

}

//将结果以HTML打印

private void printItems(ItemCollection items, ServletOutputStream out) throws IOException {

Iterator iter = items.iterator();

//建立HTML

out.println("<HTML><BODY><H2>Inventory Summary:</H2>");

out.println("<TABLE><TR ALIGN='CENTER'>");

out.println("<TH WIDTH='30%'>SKU</TH>");

out.println("<TH WIDTH='40%'>INVENTORY Quantity</TH></TR>");

//为每一行打印一个表格行

while(iter.hasNext()){

Item currentItem = (Item) iter.next();

out.println("<TR ALIGN='CENTER'>");

out.println("<TD>" + currentItem.getSKU() + "</TD>");

out.println("<TD>" + currentItem.getQUANTITY() + "</TD>");

out.println("</TR>");

}

//关闭HTML

out.println("</TABLE></BODY></HTML>");

out.flush();

}

InventoryInfoGet类：

import java.io.IOException;

import java.util.Iterator;

import javax.servlet.ServletException;

import javax.xml.parsers.ParserConfigurationException;

import javax.xml.parsers.SAXParser;

import javax.xml.parsers.SAXParserFactory;

import org.xml.sax.InputSource;

import org.xml.sax.SAXException;

public class InventoryInfoGet {

private SAXParserFactory parserFactory;

//创建SAX解析器工厂

public void createFactory(){

parserFactory = SAXParserFactory.newInstance();

}

//解析方法

public void doParse() throws IOException, ServletException{

//构造自定义的事件处理器

InventoryHandler eventHandler = new InventoryHandler();

//获取SAX解析器实例

SAXParser parser = null;

try{

parser = parserFactory.newSAXParser();

}

catch(ParserConfigurationException pce){

}

catch(SAXException se){

}

try{

//提供XML文档

String uri = "src/Inventory.xml";

InputSource sourceDoc = new InputSource(uri);

//开始解析

parser.parse(sourceDoc, eventHandler);

}

catch(SAXException se){

throw new ServletException("Error parsign inventory.", se);

}

//检查并打印结果

ItemCollection items = eventHandler.getParseResults();

printInfo(items);

}

public void printInfo(ItemCollection items){

Iterator iter = items.iterator();

System.out.println("Inventory Summary:");

System.out.println("---------------------");

System.out.println("SKU" + " " + "QUANTITY");

//为每一个Item打印一行

while(iter.hasNext()){

Item currentItem = (Item) iter.next();

System.out.println(currentItem.getSKU() + " " + currentItem.getQUANTITY());

}

public static void main(String[]args) throws IOException, ServletException{

InventoryInfoGet iif = new InventoryInfoGet();

iif.createFactory(); //先创建工厂

iif.doParse();

}

InventoryInfoGet运行结果如下：

Inventory Summary:

---------------------

SKU QUANTITY

3956 108

5783 32

6583 7

到此为止，我们已经对SAX解析的原理及其基本实现有一个大概的了解了。

另外上面必须注意：

SAX解析器不是线程安全的，虽然可以重复使用一个解析器来解析几个文档，但是不能重复使用它同时解析几个文档。因此，Servlet的get方法为每个用户构造一个解析器，以允许Servelt同时处理多个用户。

不能在线程之间共享解析器实例，但是可以在特定环境下共享SAXParserFactory。Servelet仅需要维护工厂的一个实例，并且它反复地在Servlet的get方法内引用该实例。这在多线程环境中是有效的，因为SAXParserFactory的newSAXParser()方法声明为线程安全的。所以可以在很多线程中安全地使用工厂对象。