- ASCII (American Standard Code for Information Interchange,美国信息交换标准代码):利用 7 bit来表示一个字符,共计可以表示 128种字符。
- ISO-8859-1(向下完全兼容 ASCII):利用 8 bit表示一个字符,即用一个字节(byte)来表示一个字符,共计可以表示256个字符
- gb2312:利用2个字节(byte)来表示一个汉字
- gbk:是gb2312的延伸,加入了一些生僻字等。完全兼容gb2312
- gb18030:最完整的汉字的表示,简体中文
- big5 :大五码,繁体
对于多个国家和多个标准,标准化组织提出了 Unicode 编码,可以表示全世界的字符
unicode:采用了两个字节来表示一个字符。表示形式: \uxxxx,会造成存储空间的浪费。
UTF(Unicode Translation Format)
UTF和Unicode之间的关系:
- Unicode是编码方式,将字符编码为具体的值,如将 ‘我’ 编码为 \u990X
- UTF 是存储方式,如将文件存储到硬盘上是以UTF存储的;
- UTF-8,UTF-16,Utf-32 都是Unicode的实现方式之一。
- UTF-16 是使用两个字节来存储
UTF-8 :变长字节表示形式,英文和ASCII表示一致,也是用 7bit 表示,前127个ASCII一致,并且兼容 ISO-8859-1 ,使用三个字节来表示一个中文
BOM(Byte Order Mark):字节序标记
本文深入探讨了从ASCII到Unicode的各种字符编码标准,包括ISO-8859-1、gb2312、gbk、gb18030、big5及UTF的不同实现方式,如UTF-8、UTF-16和UTF-32,揭示了全球字符编码的历史演进和技术细节。
2027

被折叠的 条评论
为什么被折叠?



