我们都知道计算存储数据和传输数据都是以二进制的形式,也就是0和1,这是因为0和1刚好对应电路中的高电位和低电位。
计算机中最小的存储单位为字节(byte),最小传输单位是位(bit),一个字节占8位。
既然计算机存储的是二进制数,那么在显示终端上是怎么展示成人类识别的文字或者符号的呢?
我们知道计算机最开始是在美国使用,他们为了解决这个问题,于是想了一个办法,将每一个符号(文字)与一个数值对应,比如英文字母"a",对应数字97,以二进制表示为01100001。而8位共有2的8次方256中排列组合,而英文字母一共只有26个,加上大小写52个,再加上阿拉伯数字0到10和一些符号,一共排到了127,一个字节刚好够存储。于是美国人就把这个二进制与字符的映射关系叫做ANSI,也就是Ascii(美国标准信息互换码)。
后来计算机传到了其他国家,但他们的一些字符ANSI里面没有,于是,他们将自己国家的字符往127后继续排,直到255,他们把128-255这段称为扩展字符集。但是255是远远不够的,尤其是当计算机传到中国,光是常用汉字就有3000多个。
于是聪明的中国人把那些127号之后的奇异符号们直接取消掉, 规定:一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从0xA1用到0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了。在这些编码里,我们还把数学符号、罗马希腊的