字符编码（Unicode，UTF-8）必须通俗易懂

最新推荐文章于 2025-01-18 07:49:59 发布

原创最新推荐文章于 2025-01-18 07:49:59 发布 · 1k 阅读

2 ·

CC 4.0 BY-SA版权

Database 专栏收录该内容

4 篇文章

订阅专栏

本文深入探讨了Unicode编码标准及其实现方式，如UTF-8、UTF-16和UTF-32，详细解释了这些编码如何解决多语言支持问题，并阐述了计算机系统如何在内存中使用Unicode，而在存储或传输时转换为UTF-8。

近几年，每每遇到关于Unicode，UTF-8之类的问题，总是需要花费半个小时回顾一下它们之间的关系，因为我发现很多网上的资料都是通篇文字描述，我的想法很简单，希望一目了然，下一次，希望一分钟之内完成回顾，于是我使用的表格描述，算是对网上很多的资料的一个格式转化和汇总吧！

*字符集*
Unicode Unicode（统一码、万国码、单一码）是计算机科学领域里的一项业界标准，包括字符集、编码方案等。
*编码方式*	*编码说明（编码方式是实现字符集计算机存储的方式）*
ANSI	ANSI是一种字符代码，为使计算机支持更多语言，通常使用 0x00~0x7f 范围的1 个字节来表示 1 个英文字符。超出此范围的使用0x80~0xFFFF来编码，即扩展的ASCII编码。简单的说，在英文编码系统下，ANSI编码代表ASCII，(American Standard Code for Information Interchange， “美国信息交换标准码），在简体中文系统下，ANSI编码代表GB2312编码；在日文操作系统下，ANSI编码代表JS编码。
UCS-2	UCS-2（Universal Character Set coded in 2 octets）顾名思义，UCS-2是用两个字节来表示代码点，其取值范围为 U+0000～U+FFFF。 BOM(Byte Order Mark): Unicode规范中定义，每一个文件的最前面分别加入一个表示编码顺序的字符(ZERO WIDTH NO-BREAK SPACE--零宽度非换行空格，用来存储Big Endian（大头）和Little Endian（小头）标识)，这个字符的名字叫做“零宽度非换行空格”（ZERO WIDTH NO-BREAK SPACE），用FEFF表示。这正好是两个字节，而且FF比FE大1。如果一个文本文件的头两个字节是FE FF，就表示该文件采用大头方式；如果头两个字节是FF FE，就表示该文件采用小头方式。特别强调，人们经常把UCS-2编码直接称为Unicode编码，所以特别容易混淆Unicode编码和Unicode字符集的关系。
UTF-8	UTF-8(8-bit Unicode Transformation Format)，随着互联网的普及，强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32，不过在互联网上基本不用。重复一遍，这里的关系是，UTF-8是Unicode的实现方式之一。 UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。 UTF-8的编码规则很简单，只有二条： 1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。 2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。
UTF-16	不做过多介绍，2字节或者4字节。
UTF-32	不做过多介绍，定长4字节。