在现代电子计算机中,无论字符,图像,声音的所有表示的底层皆是二进制码,为了使全国更加容易的通信,为了使互联网更加面向世界,于是ISO组织推出了“Universal Multiple-Octet Coded Character Set” ,简称“UCS”,俗称“Unicode”。中文名也就是万国码/国际码/统一码。
一、Unicode编码方案之UCS-2
目前Unicode编码方案使用最广泛的是UCS-2,也就是使用2个字节表示字符的编码方案,这样一来该编码方案能表示2^16=65536种字符,基本满足了大部分语言的正常使用。具体方案在维基百科中有详细表单。
二、Unicode编码方案之UCS-4
为了能表示全世界所有的文化符号,又出现了UCS-4的编码方案,也就是UCS-2的拓展实现。具体实现为:
1.UCS-4的首位恒为 0 ,也就是UCS-4可以表示 2^31 种字符。
2.UCS-4将这个区间划分为17个平面,而每个平面拥有65536个代码点,然而目前只用了少数平面。0号平面也就是UCS-2的字符集,具体如下图所示:
3.在字符平面中,第0平台又称为基本平面,另外的平面称为辅助平面。
三、Unicode编码之计算机上的实现
在上文中简要说明了Unicode编码的方案ÿ