char类型用于表示单个字符,通常用来表示字符常量。只能用单引号,'A’是编码为65所代表的字符常量,而"A"是一个包含字符A的字符串。
Unicode编码采用十六位字符集,范围从\u0000到\uffff。例如:\u005B表示“[”,而\u005D表示“]”。除了使用转义序列符\u表示Unicode代码单元的编码外,还有一些用于表示特殊字符的转义序列符,比如常见的"\b,\n,\t,\r"等。所有这些转义序列符都可以出现在字符常量以及字符串的引号内。只有\u还可以出现在字符常量或字符串的引号外。
Java解决Unicode字符不够用的办法。
先解释一下相关术语:
码点:是指与一个编码表中的某个字符对应的代码值。在Unicode标准中,代码点采用十六进制书 写,并且加上前缀U+,例如:U+0041就是字母’A’的代码点。
基本的多语言级别:Unicode的代码点分为17个代码级别。其中第一个代码级别被称为基本的多语 言级别。
代码单元:UTF-16编码采用了不同长度的编码表示所有的Unicode代码点。在基本的多语言级别中,每个字符用16位表示,通常被称为代码单元。
Unicode字符不足的主要原因是增加了大量汉语、日语、汉语中的表意文字。在Java中为了解决这个问题,将辅助字符采用一对连续的代码单元进行编码。这样构成的编码值一定落入基本的多语言级别中空闲的2048字节内,通常被称为替代区域( [U+D800–U+DBFF用于第一个代码单元,U+DC00–U+DFFF用于第二个代码单元]。)。这样设计十分巧妙,我们可以迅速地知道一个代码单元是一个字符的编码,还是一个辅助字符的第一或第二部分。
在Java中,char类型用UTF-16编码描述一个代码单元。在Java编程中强烈建议不要使用char类型。