字符编码大揭秘：常见的字符编码及其区别

最新推荐文章于 2025-10-24 11:08:40 发布

原创最新推荐文章于 2025-10-24 11:08:40 发布 · 589 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#服务器 #开发语言

字符编码大揭秘：常见的字符编码及其区别

在编程世界中，字符编码是一个既基础又关键的概念。无论是处理文本文件、网络传输还是数据库操作，字符编码都扮演着重要角色。然而，面对众多的字符编码标准，你是否感到眼花缭乱？今天，我们就来深入探讨常见的字符编码及其区别，帮助你更好地理解和应用这些编码标准。

什么是字符编码？

字符编码（Character Encoding）是将字符集中的字符映射为二进制数据的过程。简单来说，就是将人类可读的文本转换为计算机可处理的二进制数据。不同的字符编码标准采用不同的映射规则，因此了解这些规则对于正确处理文本数据至关重要。

常见的字符编码

1. ASCII 编码

ASCII（American Standard Code for Information Interchange）是最早的字符编码标准之一，诞生于1963年。它使用7位二进制数表示128个字符，包括英文字母、数字、标点符号和一些控制字符。

// ASCII 编码示例
char letterA = 'A';
int asciiValue = (int) letterA; // 65
System.out.println("ASCII value of 'A': " + asciiValue);

2. ISO-8859-1 编码

ISO-8859-1（也称为Latin-1）是ASCII的扩展，使用8位二进制数表示256个字符，涵盖了大部分西欧语言字符。

// ISO-8859-1 编码示例
String text = "Olá Mundo"; // 葡萄牙语
byte[] bytes = text.getBytes(StandardCharsets.ISO_8859_1);
String decodedText = new String(bytes, StandardCharsets.ISO_8859_1);
System.out.println("Decoded text: " + decodedText);

3. UTF-8 编码

UTF-8（8-bit Unicode Transformation Format）是一种可变长度的字符编码，能够表示Unicode字符集中的所有字符。它使用1到4个字节表示一个字符，兼容ASCII编码。

// UTF-8 编码示例
String text = "你好，世界"; // 中文
byte[] bytes = text.getBytes(StandardCharsets.UTF_8);
String decodedText = new String(bytes, StandardCharsets.UTF_8);
System.out.println("Decoded text: " + decodedText);

4. UTF-16 编码

UTF-16（16-bit Unicode Transformation Format）也是一种可变长度的字符编码，使用1到2个16位代码单元表示一个字符。它能够表示Unicode字符集中的所有字符，但通常占用更多空间。

// UTF-16 编码示例
String text = "こんにちは世界"; // 日文
byte[] bytes = text.getBytes(StandardCharsets.UTF_16);
String decodedText = new String(bytes, StandardCharsets.UTF_16);
System.out.println("Decoded text: " + decodedText);

5. GBK 编码

GBK（Guojia Biaozhun Kuozhan）是中国国家标准扩展字符集，兼容GB2312编码，能够表示简体中文字符。

// GBK 编码示例
String text = "你好，世界"; // 中文
byte[] bytes = text.getBytes("GBK");
String decodedText = new String(bytes, "GBK");
System.out.println("Decoded text: " + decodedText);