编码

最新推荐文章于 2020-12-29 21:35:24 发布

原创最新推荐文章于 2020-12-29 21:35:24 发布 · 394 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

JAVA 专栏收录该内容

13 篇文章

订阅专栏

ISO-8859-1

ISO-8859-1编码是单字节编码，向下兼容ASCII，其编码范围是0x00-0xFF（即0-256），总共能表示256个字符。
0x00-0x7F（0到127）之间完全和ASCII一致，0x80-0x9F（128到159）之间是控制字符，0xA0-0xFF（160到255）之间是文字符号。
此字符集涵盖了大多数西欧语言字符，使用得最广泛。
ISO-8859-1向下兼容ASCII码。
ISO-8859-1使用“?”表示其不能识别的字符。

GB2312

GB2312是双字节编码。
GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换，通行于中国大陆；新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB2312。
GB2312编码的基本集共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区，每区有94个位。每个区位上只有一个字符，因此可用所在的区和位来对汉字进行编码，称为区位码。

GBK

GBK是双字节编码。
GBK 向下与 GB 2312 编码兼容，向上支持 ISO 10646.1国际标准，是前者向后者过渡过程中的一个承上启下的产物。
GBK编码范围从8140至FEFE（剔除xx7F），共23940个码位，共收录了21003个汉字，比GB2312收录了更多的汉字。
使用GB2312编码的汉字可以用GBk解码，而且不会发生乱码。

Unicode

Unicode（统一码、万国码、单一码）是计算机科学领域里的一项业界标准,包括字符集、编码方案等。
Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。
世界上所有的语言都可以通过Unicode来相互翻译。
简单的说，Unicode是一个把所有文字编号的标准，而UTF-16或者UTF-8就是一种把这些编号转为二进制的方式。

UTF-16

UTF-16定义了Unicode在计算机中的存取方法。
UTF-16采用两个字节来表示一个字符，是一种定长表示方法，大大简化了字符串操作，这是Java使用UTF-16作为内存的字符存储格式的重要原因。
缺点：很大一部分字符可以用一个字节表示，而使用UTF-16就必须将之扩展为两个字节，从而存储空间增大了一倍。

UTF-8

UTF-8是一种可变长度的字符编码，UTF-8用1到4个字节编码Unicode字符。

编码规则：

如果是一个字节的最高位（第8位）为0，表示这是1个ASCII字符。可见，所有的ASCII编码已经是UTF-8了。
如果一个字节以11开头，则连续的1的个数暗示这个字符的字节数，如110xxxxx代表它是双字节UTF-8字符的首字节。
如果一个字节以10开头，表示它不是首字节，则需要向前查找才能得到当前字符的首字节。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。