Unicode字符集与utf-8编码

feral_coder

于 2020-06-06 15:53:27 发布

阅读量1k

点赞数 3

分类专栏：计算机基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/feral_coder/article/details/106587527

版权

我们都知道计算存储数据和传输数据都是以二进制的形式，也就是0和1，这是因为0和1刚好对应电路中的高电位和低电位。

计算机中最小的存储单位为字节（byte），最小传输单位是位（bit），一个字节占8位。

既然计算机存储的是二进制数，那么在显示终端上是怎么展示成人类识别的文字或者符号的呢？

我们知道计算机最开始是在美国使用，他们为了解决这个问题，于是想了一个办法，将每一个符号（文字）与一个数值对应，比如英文字母"a"，对应数字97,以二进制表示为01100001。而8位共有2的8次方256中排列组合，而英文字母一共只有26个，加上大小写52个，再加上阿拉伯数字0到10和一些符号，一共排到了127，一个字节刚好够存储。于是美国人就把这个二进制与字符的映射关系叫做ANSI，也就是Ascii（美国标准信息互换码）。

后来计算机传到了其他国家，但他们的一些字符ANSI里面没有，于是，他们将自己国家的字符往127后继续排，直到255，他们把128-255这段称为扩展字符集。但是255是远远不够的，尤其是当计算机传到中国，光是常用汉字就有3000多个。

于是聪明的中国人把那些127号之后的奇异符号们直接取消掉, 规定：一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节（他称之为高字节）从0xA1用到0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。在这些编码里，我们还把数学符号、罗马希腊的

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。