简介
编码:规定每个“字符”分别用一个字节还是多个字节存储,用哪些字节来存储。
编码是信息从一种形式或格式转换为另一种形式的过程。
编码是用预先规定的方法将文字、数字或其他对象编成数码,或将信息、数据转换成规定的电脉冲信号。
字符集:包含“字符”的集合就叫做“字符集”。
位(bit):"位(bit)"是电子计算机中最小的数据单位。每一位的状态只能是0或1。
字节(Byte):8个二进制位构成1个"字节(Byte)",它是存储空间的基本计量单位。1个字节储存1个英文字母或半个汉字。
字:"由若干个字节构成,字的位数叫做字长,不同档次的机器有不同的字长。字是计算机进行数据处理和运算的单位。
字符(character):是指计算机中使用的字母、数字、字和符号
编码中字符占据的字节
- 在 ASCII 编码中,一个英文字母字符存储需要1个字节。
- 在 GB 2312 或GBK 编码中,一个汉字字符存储需要2个字节。
- 在UTF-8编码中,一个英文字母字符存储需要1个字节,一个汉字字符储存需要3到4个字节。
- 在UTF-16编码中,一个英文字母字符或一个汉字字符存储都需要2个字节(Unicode扩展区的一些汉字存储需要4个字节)。
- 在UTF-32编码中,世界上任何字符的存储都需要4个字节。
体系分类
ASCII:美国信息交换标准编码,即美标。
0~127(128个数字)来代表信息的规范编码。其中包括33个控制码,一个空格码,和94个形象码。形象码中包括了英文大小写字母,阿拉伯数字,标点符号等。
GB:中华人民共和国国家标准信息交换用汉字编码,即国标。
国标表(基本表)把七千余汉字、以及标点符号、外文字母等,排成一个94行、94列的方阵。
GBK:汉字内码扩展规范,是GB的扩展字符码,对多达2万多的简繁汉字进行了编码。
GBK向下与GB-2312编码兼容,向上支持ISO 10646.1国际标准,是前者向后者过渡的一个承启标准。
BIG5:BIG5码是针对繁体汉字的汉字编码,目前在台湾、香港的电脑系统中得到普遍应用。
ISO-10646:通用字符集,属于单字节编码,最多能表示的字符范围是0-255,应用于英文系列。
Unicode:万国码,宽字节字符集,它对每个字符都固定使用两个字节即16位表示,于是当处理字符时,不必担心只处理半个字符。
UTF-8:是Unicode的一种变长字符编码, 8bit编码, ASCII不作变换, 其他字符做变长编码, 每个字符1-3 byte(英文字母用一个字节,汉字使用3个字节)。
UTF-16:16bit编码, 是变长码, 大致相当于20位编码, 值在0到0x10FFFF之间, 基本上就是unicode编码的实现. 它是变长码, 与CPU字序有关, 但因为最省空间, 常作为网络传输的外码.
本文介绍了字符编码的基础概念,包括位、字节、字符集及不同的编码方式如ASCII、GB2312、GBK、UTF-8等,并对比了各种编码的特点和适用场景。
595

被折叠的 条评论
为什么被折叠?



