我们都知道计算存储数据和传输数据都是以二进制的形式,也就是0和1,这是因为0和1刚好对应电路中的高电位和低电位。
计算机中最小的存储单位为字节(byte),最小传输单位是位(bit),一个字节占8位。
既然计算机存储的是二进制数,那么在显示终端上是怎么展示成人类识别的文字或者符号的呢?
我们知道计算机最开始是在美国使用,他们为了解决这个问题,于是想了一个办法,将每一个符号(文字)与一个数值对应,比如英文字母"a",对应数字97,以二进制表示为01100001。而8位共有2的8次方256中排列组合,而英文字母一共只有26个,加上大小写52个,再加上阿拉伯数字0到10和一些符号,一共排到了127,一个字节刚好够存储。于是美国人就把这个二进制与字符的映射关系叫做ANSI,也就是Ascii(美国标准信息互换码)。
后来计算机传到了其他国家,但他们的一些字符ANSI里面没有,于是,他们将自己国家的字符往127后继续排,直到255,他们把128-255这段称为扩展字符集。但是255是远远不够的,尤其是当计算机传到中国,光是常用汉字就有3000多个。
于是聪明的中国人把那些127号之后的奇异符号们直接取消掉, 规定:一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从0xA1用到0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了。在这些编码里,我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了,连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的”全角”字符,而原来在127号以下的那些就叫”半角”字符了。中国人民看到这样很不错,于是就把这种汉字方案叫做 “GB2312“。GB2312 是对 ASCII 的中文扩展。
不仅是中国,其他国家也搞一套自己的字符集,结果谁也不懂谁的编码。
就在这个时候,一个叫做ISO(国际标准化组织)的组织出现了,它说这样不行,得由他来定义一套统一得标准,于是,他废除了其他地区的编码方法,重新搞了一套包含地球上所有文字,和符号的编码,也就是un

最低0.47元/天 解锁文章
1067

被折叠的 条评论
为什么被折叠?



