ASCII unicode utf8 编码、解码的那些事

最新推荐文章于 2024-12-21 13:14:00 发布

静等风来

最新推荐文章于 2024-12-21 13:14:00 发布

阅读量526

点赞数

CC 4.0 BY-SA版权

文章标签：编码解码

本文链接：https://blog.youkuaiyun.com/weixin_42796058/article/details/85784765

这篇博客介绍了ASCII、Unicode和UTF-8编码的原理和差异。ASCII码用于英语字符，最多128个符号；Unicode是全球字符集，解决各国编码问题；UTF-8是Unicode的一种实现，用1-4个字节表示字符。文章还讨论了编码与解码的过程，强调了不同编码间的转换需要通过Unicode作为中介。

ASCII unicode gbk utf8 编码、解码的那些事

对应编码这块一直处于一种懵懵懂懂的状态，有的时候去查了资料，当下理解了，过一段时间又遗忘了，今天又重新查阅了一番资料，记录一下所感所悟。

阮一峰老师关于编码的总结

1.ASCII码

ASCII（American Standard Code for Information Interchange）

计算机内部所有信息都是用二进制来存储的，一个二进制位有0或1两种状态，8个二进制位称为一个字节，一个字节就有256种状态。

上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为 ASCII 码，一直沿用至今。
ASCII 码一共规定了128个字符的编码，比如空格SPACE是32（二进制00100000），大写的字母A是65（二进制01000001）。这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的一位统一规定为0。

128个字符可以满足英语母语国家的基本需求，但对于欧洲的其他国家，由于自己母语的特殊性，仍需要其他字符才能尽可能的表示所有语言字符。所以他们扩展了原有的ASCII码，把一个字节最高位为1的状态也用来表示字符，便有256种状态。基本上 0-127 仍遵循ASCII码，不同的国家在128-256状态码的表示内容上有所区别。

至于亚洲国家的文字，使用的符号就更多了，汉字就多达10万左右。一个字节只能表示256种符号，肯定是不够的，就必须使用多个字节表达一个符号。比如，简体中文常见的编码方式是 GB2312，使用两个字节表示一个汉字，所以理论上最多可以表示 256 x 256 = 65536 个符号。