Java XML解析技术

本文详细介绍了XML可扩展标记语言的基本概念、语法规范、注释与处理指令,并对比了DOM与SAX两种解析技术的特点与适用场景,旨在帮助开发者全面掌握XML解析的核心知识与实践方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

20 Java XML解析技术

1XML

XMLeXtended MarkupLanguage)可扩展标记语言的缩写,是一种类似HTML 的标记。XML是被设计用来描述数据,能够用纯文本的形式表现各种机构复杂的数据,易于在各平台上构造和解析,因此在跨平台网络数据交换、数据存储等方面得到广发的应用。

 

1.1、可扩展性:

         指程序员可以定义自己需要的标记,创建自己的标记语言,但定义标记时必须遵守XML规范。

 

1.2、标记语言:

         也称为置标语言,是一种将文本以及文本相关的其他信息2结合起来、展现出关于文本结构和数据处理细节的电脑文字编码。当今广泛的标记语言有超文本标记语言(HTML)。和可扩展标记语言(XML)。标记语言广泛应用于网页和网络应用程序等。

 

XML文本分两部分组成:

         序言:包括声明、处理指令、文档类型定义、注释组成。

文档元素:包括根元素、元素、属性、和文本组成。

Xml声明有以下几部分组成:

         Version:文档符合XML1.0规范,现在只有1.0

         Encoding文档字符编码,默认为UTF-8

         Standalone:文档定义是否在一个文件内

            -Standalone = “yes”

           -Standalone = “no”

<?xmlversion = “1.0”encoding = “UTF-8”,

1.3、XML的注释:

         <!- -注释内容- - >

1  不要把注释放在标记中间:

2  注释不能嵌套;

3  可以在除标记以外的任何地方放注释。

1.4、XML处理指令:

1)处理指令用于  XML解析器传递信息到应用程序。

         -XML解析器是读取并保存XML文档内容的软件模块

2)格式:<?处理指令名称处理指令信息?>

         指明了与其所属文档配套使用的样式表的类型为XSL

1.5、XML的元素:

         元素TITLE <TITLE>lovoinfo.com<TITLE>  有元素开始<TITLE>lovo、文本、元素结束组成;

         空元素

1.6、XML根元素:

1  每个XML文档必须有且只有一个根元素

2)根元素是一个完全包括文档中其他所有元素的元素

3)根元素的起始标记要放在所有其他的起始标记之前

4)根元素的结束标记要放在所有其他元素的结束标记之后。

1.7、XML实体:

XML中预定的符号如:“<”、“”“、”>”、如果XML文档中出现了这样的数据,使用预定的实体类代替。

 

实体

符号

&lt

&gt

&am

&

&quot

&apos

1.8、XML元素属性:

格式如下

         <Student ID = “100”

                   <Name>TOM</Name>

         </Student>

1)  属性值用双引号(“)或单引号(‘)分隔(如果属性值中有,用分隔;有,用分隔)

2)  一个元素可以有多喝属性,他的基本格式为:

1.9、CDATA:

         用于把整个段文本解释为纯字符数据而不是标记的情况。

特点:

是不被解析器解析的文本。文本内的标签不会被当做标记,实体不会被展开。

语法:

         <![CDATA[

。。。。。。。。。

] ]>

可以输入任意字符(除)]]

1.10、结构完整的XML文本:

1  语法规范:

1  --必须有XML声明语句

                   <?xml version=”1.0”encoding=”gb2312”?>

2  --必须有且有一个根元素

3  --标记大小写敏感

4)属性值用引号

5/

2  元素语法

1.11、XML解析技术:

1)  文档对象模型(DOM),一种基于树结构的API

2)  XML简单APISAX),一种事件驱动的API

 

2DOMSAX的区别:

2.1、DOM

核心是按树的结构处理XML数据,DOM解析器读取XML文档并在内存中建立一个文档树结构,通过操作此结构来处理XML文档。

DOM优点:

是编程容易,可以从上到下多次遍历;

DOM缺点

是由于DOM解析是需要将XML文档整个读入内存,所以占用内存大,不合适大型XML文档的解析。

2.2、SAM:

         SAM核心是事件驱动处理机制,它采用逐行烧苗文档,一边扫描一边解析的方式。由于SAM不需要将XML文档整个读入内存。

SAM优点

是占用内存少,效率高,适合大型XML文档的解析;

SAM缺点:

是事件触发是有序的,文档只能遍历一次。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值