Unicode字符集与utf-8编码

我们都知道计算存储数据和传输数据都是以二进制的形式,也就是0和1,这是因为0和1刚好对应电路中的高电位和低电位。

计算机中最小的存储单位为字节(byte),最小传输单位是位(bit),一个字节占8位。

既然计算机存储的是二进制数,那么在显示终端上是怎么展示成人类识别的文字或者符号的呢?

我们知道计算机最开始是在美国使用,他们为了解决这个问题,于是想了一个办法,将每一个符号(文字)与一个数值对应,比如英文字母"a",对应数字97,以二进制表示为01100001。而8位共有2的8次方256中排列组合,而英文字母一共只有26个,加上大小写52个,再加上阿拉伯数字0到10和一些符号,一共排到了127,一个字节刚好够存储。于是美国人就把这个二进制与字符的映射关系叫做ANSI,也就是Ascii(美国标准信息互换码)。

后来计算机传到了其他国家,但他们的一些字符ANSI里面没有,于是,他们将自己国家的字符往127后继续排,直到255,他们把128-255这段称为扩展字符集。但是255是远远不够的,尤其是当计算机传到中国,光是常用汉字就有3000多个。

于是聪明的中国人把那些127号之后的奇异符号们直接取消掉, 规定:一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从0xA1用到0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了。在这些编码里,我们还把数学符号、罗马希腊的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值