近几年,每每遇到关于Unicode,UTF-8之类的问题,总是需要花费半个小时回顾一下它们之间的关系,因为我发现很多网上的资料都是通篇文字描述,我的想法很简单,希望一目了然,下一次,希望一分钟之内完成回顾,于是我使用的表格描述,算是对网上很多的资料的一个格式转化和汇总吧!
字符集 | |
Unicode Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。
| |
编码方式 | 编码说明(编码方式是实现字符集计算机存储的方式) |
ANSI | ANSI是一种字符代码,为使计算机支持更多语言,通常使用 0x00~0x7f 范围的1 个字节来表示 1 个英文字符。超出此范围的使用0x80~0xFFFF来编码,即扩展的ASCII编码。
简单的说,在英文编码系统下,ANSI编码代表ASCII,(American Standard Code for Information Interchange, “美国信息交换标准码),在简体中文系统下,ANSI编码代表GB2312编码;在日文操作系统下,ANSI编码代表JS编码。
|
UCS-2
| UCS-2(Universal Character Set coded in 2 octets)顾名思义,UCS-2是用两个字节来表示代码点,其取值范围为 U+0000~U+FFFF。
BOM(Byte Order Mark): Unicode规范中定义,每一个文件的最前面分别加入一个表示编码顺序的字符(ZERO WIDTH NO-BREAK SPACE--零宽度非换行空格,用来存储Big Endian(大头)和Little Endian(小头)标识),这个字符的名字叫做“零宽度非换行空格”(ZERO WIDTH NO-BREAK SPACE),用FEFF表示。这正好是两个字节,而且FF比FE大1。
特别强调,人们经常把UCS-2编码直接称为Unicode编码,所以特别容易混淆Unicode编码和Unicode字符集的关系。
|
UTF-8
| UTF-8(8-bit Unicode Transformation Format),随着互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32,不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8是Unicode的实现方式之一。 |
UTF-16 | 不做过多介绍,2字节或者4字节。 |
UTF-32 | 不做过多介绍,定长4字节。 |
计算机系统通用的字符编码工作方式:
在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。
用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件:
浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器:
所以很多网页的源码上会有类似<meta charset="UTF-8" />的信息,表示该网页正是用的UTF-8编码。