编码——知识补充

编码——知识补充

一、中文编码

        一说到中文就得提到两个标准:GB和GBK。GB是中国国家标准(GuoBiao)的缩写,在1980年由中国国家标准化管理委员会(SAC)制定,具体的标准有GB2312。而GBK(全称GuoBiaoKuozhan)国标扩展,在1995年被提出,是对 GB2312 的扩展。它支持21,003个汉字及符号,其中包括繁体字和部分日文假名。GBK 使用双字节编码,兼容 GB2312。

        还有GB18030和Big5。GB18030是对 GB2312 和 GBK 的进一步扩展,在2000年被提出。它支持 21,003 个汉字及符号,使用单字节、双字节和四字节编码,完全向后兼容 GB2312 、GBK和Unicode(没错,它能表示Unicode中的全部字符)。它覆盖了简体字、繁体字及其他语言字符,成为中国大陆的强制性标准。另外还有Big5 编码,它在1984年由台湾五家主要计算机公司(联华电子、宏碁、台湾惠普、神通计算机和台湾大哥大)联合提出,故名 "Big5"。它包含 13,053 个汉字,主要覆盖繁体中文字符。使用双字节编码。每个字符由两个字节表示,第一个字节(称为高字节)范围从 0xA1 到 0xF9,第二个字节(称为低字节)范围从 0x40 到 0x7E 和 0xA1 到 0xFE。如果你windows系统选择的语言是繁体,那么在你记事本的下拉选项中ANSI就变成Big5了。

        所以几种常见的编码关系如下图。这里需要说明的是,虽然Unicode也包含所有的汉字,而GB18030也兼容Unicode,但是同一个字符在GB18030和Unicode中的编码基本上是不一样的,只有ACSII部分是完全相同的。

关于GB2312、GBK、GB18030的更详细的介绍可以参考这篇文章:程序员必备:彻底弄懂常见的7种中文字符编码 - 知乎 (zhihu.com)

二、一些奇怪的点

        在这里补充为什么计算机硬件通

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值