代码点指编码表(比如Unicode)中某个字符的代码值(数字),在Unicode标准中,代码点采用十六进制书写,书写时前面加U+,比如U+0041是字母A的代码点.
Unicode的代码点可以分为17个代码级别。第一个代码级别称为基本的多语言级别,代码点从U+0000到U+FFFF,其余16个附加级别,代码点从U+10000到U+10FFFF,其中包含了一些辅助字符。
UTF-16编码采用不同长度的编码表示所有的Unicode编码。基本的多语言级别,每个字符用16位表示;而辅助字符采用一对连续的代码单元进行编码。这样构成的编码值一定落入基本的多语言级别中空闲的2048字节内,通常成为替代区域。U+D800--U+DBFF用于第一个代码单元,U+DC00--U+DFFF用于第二个代码单元。
java中的代码单元指表示编码表字符的最小存储单元,用16位表示
| Unicode 代码点 | U+0041 | U+00DF | U+6771 | U+10400 | ||||||||||
| 表示字形 | ||||||||||||||
| UTF-32 代码单元 |
|
|
|
| ||||||||||
| UTF-16 代码单元 |
|
|
|
| ||||||||||
| UTF-8 代码单元 |
|
|
|
|
本文介绍了Unicode编码系统的原理,包括代码点的概念、不同级别的代码点范围,以及如何通过UTF-16编码来表示这些代码点。此外,还对比了UTF-32、UTF-16和UTF-8编码下字符的具体表示。
3万+

被折叠的 条评论
为什么被折叠?



