字符集和编码

xianjun.ye

于 2021-09-30 10:49:32 发布

阅读量100

点赞数

分类专栏： # 2 Linux基础和帮助文章标签：编码学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_35929514/article/details/120562683

版权

2 Linux基础和帮助专栏收录该内容

6 篇文章

订阅专栏

更新时间：2021-08-29

更新版本：v1.0

一、字符集和编码

1.1 ASCII 码

计算机内部所有信息最终都是一个二进制值。上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。ASCII 码一共规定了128个字符的编码，占用了一个字节的后面7位，最前面的一位统一规定为0。

1.2 Unicode

用于表示世界上所有语言中的所有字符。每一个符号都给予一个独一无二的编码数字，Unicode 是一个很大的集合，现在的规模可以容纳100多万个符号。Unicode 仅仅只是一个字符集，规定了每个字符对应的二进制代码，至于这个二进制代码如何存储则没有规定。

Unicode编码方案:

UTF-8:变长，1到4个字节
UTF-16:变长，2或4个字节
UTF-32:固定长度，4个字节

1.2.1 UTF-8

UTF-8 是目前互联网上使用最广泛的一种 Unicode 编码方式，可变长存储。使用 1 - 4 个字节表示一个字符，根据字符的不同变换长度。编码规则如下:

对于单个字节的字符，第一位设为 0，后面的 7 位对应这个字符的 Unicode 码。因此对于英文中的 0 - 127 号字符，与 ASCII 码完全相同。这意味着 ASCII 码的文档可用 UTF-8 编码打开
对于需要使用 N 个字节来表示的字符(N > 1)，第一个字节的前 N 位都设为 1，第 N + 1 位设为0，剩余的 N - 1 个字节的前两位都设位 10，剩下的二进制位则使用这个字符的 Unicode 码来填充

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。