字符集合字符编码

本文深入探讨了从ASCII到Unicode的各种字符编码标准,包括ISO-8859-1、gb2312、gbk、gb18030、big5及UTF的不同实现方式,如UTF-8、UTF-16和UTF-32,揭示了全球字符编码的历史演进和技术细节。
  1. ASCII (American Standard Code for Information Interchange,美国信息交换标准代码):利用 7 bit来表示一个字符,共计可以表示 128种字符。
  2. ISO-8859-1(向下完全兼容 ASCII):利用 8 bit表示一个字符,即用一个字节(byte)来表示一个字符,共计可以表示256个字符
  3. gb2312:利用2个字节(byte)来表示一个汉字
  4. gbk:是gb2312的延伸,加入了一些生僻字等。完全兼容gb2312
  5. gb18030:最完整的汉字的表示,简体中文
  6. big5 :大五码,繁体

对于多个国家和多个标准,标准化组织提出了 Unicode 编码,可以表示全世界的字符

unicode:采用了两个字节来表示一个字符。表示形式: \uxxxx,会造成存储空间的浪费。

UTF(Unicode Translation Format)
UTF和Unicode之间的关系:

  1. Unicode是编码方式,将字符编码为具体的值,如将 ‘我’ 编码为 \u990X
  2. UTF 是存储方式,如将文件存储到硬盘上是以UTF存储的;
  3. UTF-8,UTF-16,Utf-32 都是Unicode的实现方式之一。
  4. UTF-16 是使用两个字节来存储

UTF-8 :变长字节表示形式,英文和ASCII表示一致,也是用 7bit 表示,前127个ASCII一致,并且兼容 ISO-8859-1 ,使用三个字节来表示一个中文
BOM(Byte Order Mark):字节序标记

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值