UTF-8,UTF-16,UNICODE,UNINCODE BIG ENDIAN的关系

最新推荐文章于 2021-10-15 00:07:07 发布

原创最新推荐文章于 2021-10-15 00:07:07 发布 · 2.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#transformation #语言

办公专栏收录该内容

58 篇文章

订阅专栏

本文介绍了Unicode字符集产生的背景及其编码形式，包括UTF-16和UTF-8，并解释了如何通过文件头标识来确定文本的编码方式。

由于每种语言都制定了自己的字符集，导致最后存在的各种字符集实在太多，在国际交流中要经常转换字符集非常不便。因此，产生了Unicode字符集，它固定使用16 bits（两个字节）来表示一个字符，共可以表示65536个字符
n标准的Unicode称为UTF-16(UTF:UCS Transformation Format )。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输，出现了UTF-8，使用类似MBCS的方式对Unicode进行编码。(Unicode字符集有多种编码形式)
例如“连通”两个字的Unicode标准编码UTF-16 (big endian）为：DE 8F 1A 90
而其UTF-8编码为：E8 BF 9E E9 80 9A

当一个软件打开一个文本时，它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。软件一般采用三种方式来决定文本的字符集和编码：
检测文件头标识，提示用户选择，根据一定的规则猜测
最标准的途径是检测文本最开头的几个字节，开头字节 Charset/encoding,如下表：
EF BB BF UTF-8
FE FF UTF-16/UCS-2, little endian
FF FE UTF-16/UCS-2, big endian
FF FE 00 00 UTF-32/UCS-4, little endian.
00 00 FE FF UTF-32/UCS-4, big-endian.