常见编码GBK、GB2312、UTF-8、ISO-8859-1的区别

最新推荐文章于 2024-08-22 06:45:13 发布

转载最新推荐文章于 2024-08-22 06:45:13 发布 · 836 阅读

·

0

·

java 专栏收录该内容

82 篇文章

订阅专栏

在项目开发中，会经常遇到不同的编码方式。不管什么编码，都是信息在计算机中的一种表现，理解常见的编码方式，有助于我们避免出现乱码等现象。
最初的计算机字符编码是通过ASCII来编码的，是现今最通用的单字节编码系统，使用7位二进制数来表示所有的字母、数字、标点符号及一些特殊控制字符，作为美国编码标准来使用。

ISO-8859-1编码是单字节编码，向下兼容ASCII，是许多欧洲国家使用的编码标准。其编码范围是0x00-0xFF，0x00-0x7F之间完全和ASCII一致，0x80-0x9F之间是控制字符，0xA0-0xFF之间是文字符号。

Unicode，学名是Universal Multiple-Octet Coded Character Set（简称UCF），与ISO-8859-1标准兼容。由国际组织标准制定，作为一种国际语言编码标准，支持超过十万个字符，涵盖世界数十种文字系统，是一种通用字符编码标准。很多技术，如Java编程语言、现代操作系统都采用了Unicode编码。

UTF-8/UTF-16等则是对Unicode进行了编码，是其一种实现方式。UTF-8(8-bit Unicode Transformation Format)，是一种变长的编码方式，它以8位为码元,用1-6个码元对Unicode进行编码，对英文字符使用单字节编码，对中文编码用到三个字节来编码。UTF-16(16-bit Unicode Transformation Format)是用16位为码元，用1个或2个码元对Unicode进行编码。utf-16将字符集划分为基本多文中平面和辅助平面，基本多文中平面中的字符与Unicode是一致的，不需要转换；处在辅助平面中的码元（如一些拼音文字或者中日韩表意文字的扩充），需要2个码元进行编码。

GB2312是国家制定的汉字编码标准，使用双子节进行编码，共收入6763个汉字和682个非汉字图形字符。GBK即对国标编码的扩展，在GB2312的基础上进行扩展形成的，使用双子节编码方式，共收入21003个汉字，从而大大满足了汉字使用的需要。

总结
unicode是国际通用编码标准，可以表示全世界的字符，但其字符集也是最复杂、占用空间最大的。开发者可以根据需要进行选择编码方式。
char转化为byte：

    public static byte[] charToByte(char c) {
        byte[] b = new byte[2];
        b[0] = (byte) ((c & 0xFF00) >> 8);
        b[1] = (byte) (c & 0xFF);
        return b;

}

byte转换为char：

    public static char byteToChar(byte[] b) {
        char c = (char) (((b[0] & 0xFF) << 8) | (b[1] & 0xFF));
        return c;
    }

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。