Unicode压缩方法解析
一、引言
随着计算机技术的发展,早期的ASCII码已无法满足现代计算的需求。自1991年起,Unicode联盟提出并设计了新的字符编码方案,以适应现代硬件和软件的要求。本文将详细介绍两种Unicode压缩方法:SCSU和BOCU - 1。
二、Unicode标准概述
- 代码点与名称
Unicode标准为每个字符(代码元素)分配一个称为代码点的数字,代码点以十六进制列出并以“U +”开头。例如,代码点U + 0041代表字符“A”,同时每个代码元素还有一个唯一的名称,如U + 0041的名称是“LATIN CAPITAL LETTER A”。 - 代码分组
相关字符被归为一个脚本,它们被分配连续的代码,形成Unicode的一个连续区域。大多数Unicode代码点是16位(2字节)数字,共有64K(65,536)个这样的代码,但Unicode保留了2048个16位代码以扩展到32位代码。常用字符大多位于基本多语言平面(BMP),BMP中有约6700个未分配的代码点用于未来扩展,代码空间的其他区域还有超过870,000个未使用的补充代码点。 - 代码空间布局
Unicode从128个ASCII代码U + 0000到U + 007F开始,接着是希腊文、西里尔文、希伯来文、阿拉伯文、印度文等脚本,然后是符号、标点、变音符号、数学符号等。代码空间还包括平假名、片假名、注音符号等,最后是统一的汉字表意文字和现代韩语字母。BMP的末尾有一段保留用于私人使用的代码点,以及一
超级会员免费看
订阅专栏 解锁全文
2052

被折叠的 条评论
为什么被折叠?



