字符集和编码规范：ASCII,Unicode和UTF-8, latin1,BIG5,GBK

最新推荐文章于 2023-04-16 16:47:39 发布

原创

最新推荐文章于 2023-04-16 16:47:39 发布 · 1.9k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文详细介绍了字符集和编码方式，包括ASCII码，Unicode字符集，UTF-8编码方式，以及拉丁文编码Latin1，繁体中文编码BIG5和GBK。ASCII码覆盖了英语字符，Unicode包含了全球多种语言的字符，而UTF-8是一种变长编码，适应不同字符长度需求。拉丁文编码Latin1向下兼容ASCII，BIG5和GBK主要用于繁体中文。

字符集和编码方式：ASCII,Unicode和UTF-8, latin1,BIG5,GBK

参考：
字符集
 字符集编码详解

一、 ASCII码

我们知道，在计算机内部，所有的信息最终都表示为一个二进制的字符串。每一个二进制位（bit）有0和1两种状态，因此八个二进制位就可以组合出256种状态，这被称为一个字节（byte）。也就是说，一个字节一共可以用来表示256种不同的状态，每一个状态对应一个符号，就是256个符号，从0000000到11111111。

上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码，一直沿用至今。

ASCII码一共规定了128个字符的编码，比如空格“SPACE”是32（二进制00100000），大写的字母A是65（二进制01000001）。ASCII编码采用单字节(8 Bit)存储，实际数据存储空间是7 Bit，这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的1位统一规定为0。（最高位的1 Bit是奇偶校验位）
ASCII码实现的是大小写英文字母，阿拉伯数字，及常用的标点符、运算符、控制字符(换行、删除等)和通信字符(文头、确认等)与计算机编码之间的对应。
ASCII编码对于英语国家足够用了，但是却无法表达非英语国家字符到计算机编码之间的映射，如中文汉字、法语字母等。所以，出现了很多非ASCII编码(但大多数都是兼容ASCII码的)。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。