XML解析方式优缺点比较(转)

最新推荐文章于 2023-05-18 19:07:12 发布

原创最新推荐文章于 2023-05-18 19:07:12 发布 · 316 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#XML解析方式优缺点比较(转)

java基础专栏收录该内容

6 篇文章

订阅专栏

本文对比了SAX、DOM、JDOM、DOM4J、StAX五种解析XML文档的方式在性能上的表现，通过创建不同大小的XML文档进行解析，得出结论：SAX性能最优，适合对性能有高要求的应用；DOM适合需要访问和控制任意数据的功能；DOM4J和StAX提供了良好的性能和易用性，StAXEvent是综合性能、易用性和面向对象特征的最佳选择。

一、DOM（Document Object Model）

文档对象模型分析方式。以层次结构（类似于树型）来组织节点和信息片段，映射XML文档的结构，允许获取和操作文档的任意部分。是W3C的官方标准。

优点：
1、允许应用程序对数据和结构做出更改。
2、访问是双向的，可以在任何时候在树中上下导航，获取和操作任意部分的数据。

缺点：
1、通常需要加载整个XML文档来构造层次结构，消耗资源大。

二、SAX（Simple API for XML）

流模型中的推模型分析方式。通过事件驱动，每发现一个节点就引发一个事件，通过回调方法完成解析工作，解析XML文档的逻辑需要应用程序完成。

优点：
1、不需要等待所有数据都被处理，分析就能立即开始。
2、只在读取数据时检查数据，不需要保存在内存中。
3、可以在某个条件得到满足时停止解析，不必解析整个文档。
4、效率和性能较高，能解析大于系统内存的文档。

缺点：
1、需要应用程序自己负责TAG的处理逻辑（例如维护父/子关系等），使用麻烦。
2、单向导航，很难同时访问同一文档的不同部分数据，不支持XPath。

三、JDOM（Java-based Document Object Model）

Java特定的文档对象模型。自身不包含解析器，使用SAX。

优点：
1、使用具体类而不是接口，简化了DOM的API。
2、大量使用了Java集合类，方便了Java开发人员。

缺点：
1、没有较好的灵活性。
2、性能较差。

四、DOM4J（Document Object Model for Java）

简单易用，采用Java集合框架，并完全支持DOM、SAX和JAXP。

优点：
1、大量使用了Java集合类，方便Java开发人员，同时提供一些提高性能的替代方法。
2、支持XPath。
3、有很好的性能。

缺点：
1、大量使用了接口，API较为复杂。

五、StAX（Streaming API for XML）

流模型中的拉模型分析方式。提供基于指针和基于迭代器两种方式的支持。

优点：
1、接口简单，使用方便。
2、采用流模型分析方式，有较好的性能。

缺点：
1、单向导航，不支持XPath，很难同时访问同一文档的不同部分。

为了比较这五种方式在解析XML文档时的性能表现，我们来创建三个不同大小的XML文档：smallusers.xml（100KB）、middleusers.xml（1MB）、bigusers.xml（10MB）。我们分别用以上五种解析方式对这三个XML进行解析，然后打印出所有的用户信息，并分别计算它们所用的时间。测试代码会在文章后面的附件中给出，这里只比较它们的耗时。

单位：s（秒）
---------------------------------------------------------------
| 100KB | 1MB | 10MB |
---------------------------------------------------------------
DOM | 0.146s | 0.469s | 5.876s |
---------------------------------------------------------------
SAX | 0.110s | 0.328s | 3.547s |
---------------------------------------------------------------
JDOM | 0.172s | 0.756s | 45.447s |
---------------------------------------------------------------
DOM4J | 0.161s | 0.422s | 5.103s |
---------------------------------------------------------------
StAX Stream | 0.093s | 0.334s | 3.553s |
---------------------------------------------------------------
StAX Event | 0.131s | 0.359s | 3.641s |
---------------------------------------------------------------

由上面的测试结果可以看出，性能表现最好的是SAX，其次是StAX Stream和StAX Event，DOM和DOM4J也有着不错的表现。性能最差的是JDOM。
所以，如果你的应用程序对性能的要求很高，SAX当然是首选。如果你需要访问和控制任意数据的功能，DOM是个很好的选择，而对Java开发人员来讲，DOM4J是更好的选择。
如果只需要做XML文档解析的话，综合性能、易用性、面向对象特征等各方面来衡量，StAX Event无疑是最好的选择。