ASCII unicode utf8 编码、解码的那些事

这篇博客介绍了ASCII、Unicode和UTF-8编码的原理和差异。ASCII码用于英语字符,最多128个符号;Unicode是全球字符集,解决各国编码问题;UTF-8是Unicode的一种实现,用1-4个字节表示字符。文章还讨论了编码与解码的过程,强调了不同编码间的转换需要通过Unicode作为中介。

ASCII unicode gbk utf8 编码、解码的那些事

对应编码这块一直处于一种懵懵懂懂的状态,有的时候去查了资料,当下理解了,过一段时间又遗忘了,今天又重新查阅了一番资料,记录一下所感所悟。

阮一峰老师 关于编码的总结

1.ASCII码

  • ASCII(American Standard Code for Information Interchange)

计算机内部所有信息都是用二进制来存储的,一个二进制位有0或1两种状态,8个二进制位称为一个字节,一个字节就有256种状态。

上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为 ASCII 码,一直沿用至今。
ASCII 码一共规定了128个字符的编码,比如空格SPACE是32(二进制00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的一位统一规定为0。

128个字符可以满足英语母语国家的基本需求,但对于欧洲的其他国家,由于自己母语的特殊性,仍需要其他字符才能尽可能的表示所有语言字符。所以他们扩展了原有的ASCII码,把一个字节最高位为1的状态也用来表示字符,便有256种状态。基本上 0-127 仍遵循ASCII码,不同的国家在128-256状态码的表示内容上有所区别。

至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。比如,简体中文常见的编码方式是 GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示 256 x 256 = 65536 个符号。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值