SAX Xml->SAXParseException在文档的元素内容中找到无效的 XML 字符 (Unicode: 0x10)

最新推荐文章于 2024-04-26 17:23:47 发布

原创最新推荐文章于 2024-04-26 17:23:47 发布 · 9.2k 阅读

3 ·

CC 4.0 BY-SA版权

JAVA 专栏收录该内容

24 篇文章

订阅专栏

本文介绍了一种在使用SAX解析大型XML文件时遇到含有unicode字符导致SAXParseException的方法，通过设置继续解析选项，实现了忽略错误记录或特殊处理错误记录，避免了解析过程因错误而终止。

在用SAX解析xml时，遇到文件中含unicode字符，则会抛出SAXParseException。

<?xml version="1.0" encoding="UTF-8"?>
<books>
    <book id="12">
        <name>Spring in Action</name>
        <price>45.0</price>
    </book>
    <book id="15">
        <name>HG6201M     </name>
        <price>39.0</price>
    </book>
</books>

其实当文件较大时，部分某一条的数据并不是很重要，我们希望能够略过这条数据或对这条数据作特殊处理，而不是当遇到解析错误时终止解析。

参考如下：

MyHander handler = new MyHander();
InputStream is = Test.class.getClass().getResourceAsStream("/file/book.xml");
SAXParserFactory factory = SAXParserFactory.newInstance();
XMLReader reader = factory.newSAXParser().getXMLReader();

//关键设置
reader.setFeature("http://apache.org/xml/features/continue-after-fatal-error",true);
reader.setContentHandler(handler);
reader.setErrorHandler(handler);
reader.parse(new InputSource(is));

自定义Hander:

public class ParseXmlHandler extends DefaultHandler {

    private String tag;
    private StringBuffer sb = null;

    @Override
    public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
        tag = qName;
        sb = new StringBuffer();
    }

    @Override
    public void endElement(String uri, String localName, String qName) throws SAXException {
        tag = null;
    }

    @Override
    public void characters(char[] ch, int start, int length) throws SAXException {
        if (tag != null) {
            if (sb == null) {
                System.out.println("error");
            } else {
                sb.append(ch, start, length);
                System.out.println(sb.toString());
            }
        }
    }

    @Override
    public void fatalError(SAXParseException e) throws SAXException {
        sb = null;
    }
}

源码解析：

1.查找到当解析错误时抛出异常的类

可以看到在XMLErrorReporter.java中有段代码，当fContinueAfterFatalError为false时则解析抛出异常。

case SEVERITY_FATAL_ERROR: {
    errorHandler.fatalError(domain, key, parseException);
    if (!fContinueAfterFatalError) {
       throw parseException;
    }
    break;
}

则应设置fContinueAfterFatalError为true,该类的setFeature方法则可以设置fContinueAfterFatalError的属性

查看其常量值进行对应的设置

    public static final String XERCES_FEATURE_PREFIX = "http://apache.org/xml/features/";
    public static final String CONTINUE_AFTER_FATAL_ERROR_FEATURE = "continue-after-fatal-error";