XML 技术全解析:从 Unicode 到远程数据交换
1. Unicode 与 XML 文档处理
在处理 XML 文档时,字符编码是一个关键问题。当在不同平台间交换基本文本文件时,会遇到诸多问题,主要包括:
- 行终止符差异 :Mac 使用回车符,Unix 使用换行符,Windows 则同时使用换行符和回车符。
- 字符表示问题 :ASCII 标准仅定义了前 127 个字符,其中前 31 个为控制字符。对于更复杂的字符,如英镑符号或花引号,不同平台和字体的显示存在差异。
- 字符集限制 :大多数平台只能表示标准的 127 个 ASCII 字符,且通常以单字节(8 位)表示字符,这限制了字符集最多只能有 256 个不同字符,对于包含中文、日文或印度文等字符的文档来说远远不够。
为解决这些问题,Unicode 标准应运而生。它通过以下方式解决字符编码问题:
- 多字节编码支持 :目前支持 2 字节字符,可表示 65,536 个不同字符,规范还预留了 4 字节字符的支持,能表示 43 亿个不同字符。
- 字符集扩展 :本质上是 ASCII 的升级版,字符表从 127 个扩展到 65,535 个,新增的位置填充了来自各种语言的字符,支持多语言文档。
Unicode 有两种编码格式:
- UTF - 8 :与西方计算机上大多数文档使用的 ASCII 格式基本相同,也允许通过单字节字符组合来表示扩展字符。
超级会员免费看
订阅专栏 解锁全文
356

被折叠的 条评论
为什么被折叠?



