字符集和字符编码

原创于 2025-07-01 15:29:48 发布 · 699 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#java #typescript

java 专栏收录该内容

5 篇文章

订阅专栏

一、核心概念解析

1. 字符集（Character Set）

定义：字符与数字标识符（即码点）的映射字典；字符包括各国家文字、标点符号、图形符号、数字等，字符集的内容范围也决定了计算机支持哪些内容
核心作用：建立人类可读字符 ⇄ 计算机可处理数字的对应关系
典型示例：

- ASCII：128个英文字符（0-127）
- GB2312：7000+简体中文字符
- Unicode：全球所有文字的统一字符集

2. 码点（Code Point）

本质：字符在字符集中的唯一数字身份证
表示形式：U+[十六进制]（如 A → U+0041，你 → U+4F60)
关键特性：

- 抽象标识符（非存储格式）
- Unicode 范围：U+0000 到 U+10FFFF（1,114,112个码位）

3. 字符编码（Character Encoding）

定义：码点 ⇄ 二进制字节序列的转换规则
核心作用：解决字符在计算机中的物理存储问题

二、历史演进：从分裂到统一

1. 黑暗时代：编码割据（1960s-1980s）

编码标准	支持字符	致命缺陷
ASCII	128个英文字符	无法表示非英语字符
GB2312	6763个简体汉字	港台用户无法使用
Shift_JIS	日文字符	与中文编码冲突
ISO-8859	西欧语言	俄语/希腊语需不同版本

💥 乱码危机：同一份文件在不同系统打开显示完全不同的内容

2. 光明降临：Unicode革命（1991至今）

统一目标：为地球上每个字符分配唯一码点
版本演进：

- Unicode 1.0（1991）：7,161个字符
- Unicode 15.1（2023）：149,186个字符（含汉字/表情符号/古文字）

三、主流编码方案

1. UTF-8（Unicode Transformation Format-8）

设计原则：兼容性优先 + 空间优化
编码规则：可变长度字符编码

码点范围	字节数	模板
U+0000-U+007F	1	0xxxxxxx
U+0080-U+07FF	2	110xxxxx 10xxxxxx
U+0800-U+FFFF	3	1110xxxx 10xxxxxx 10xxxxxx
U+10000-U+10FFFF	4	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

优势：

- 100%兼容ASCII
- 无字节序问题
- 空间效率高（英文1字节/汉字3字节）

使用场景：Web（>98%网页）、Linux系统、现代编程语言

2. UTF-16

编码特性：

- 基本平面字符：2字节（U+0000-U+FFFF) 包括：全球主要现代文字（拉丁文、中文、日文、韩文等，常用符号（标点、货币、数学符号等），控制字符（换行符、制表符等）
- 辅助平面字符：4字节（代理对机制）包括：特殊符号，表情等

字节序问题：

- 大端序（UTF-16BE）：FE FF开头（高位字节存储在低地址，低位字节存储在高地址）
- 小端序（UTF-16LE）：FF FE开头（低位字节存储在低地址，高位字节存储在高地址）

使用场景：Java/.NET内部字符串、Windows API

3. UTF-32

设计特点：

- 固定4字节存储所有字符
- 简单但极度空间浪费

使用场景：文本处理内核、字体渲染引擎

4. 编码方案对比

特性	UTF-8	UTF-16	UTF-32
最小字节	1	2	4
ASCII存储	1字节	2字节	4字节
汉字存储	3字节	2字节	4字节
字节序	无	需BOM标记	需BOM标记
错误恢复	优秀	中等	差
主要应用	互联网传输	操作系统API	文本处理内核

四、乱码问题与解决方案

乱码产生根本原因

典型乱码场景分析

网页显示乱码

<!-- 错误 -->
<meta charset="ISO-8859-1"> 

<!-- 正确 -->
<meta charset="UTF-8">

文件传输错误

# 错误：不指定编码
with open('data.txt') as f: 
    content = f.read()

# 正确：显式声明编码
with open('data.txt', encoding='utf-8') as f:
    content = f.read()

数据库存储问题

-- MySQL修复命令
ALTER DATABASE db_name CHARACTER SET utf8mb4;

乱码修复黄金法则

声明优先：所有文本入口显式指定编码
统一标准：全系统强制使用UTF-8
智能检测：使用工具探测未知编码

# Linux编码检测
file -I mystery.txt
# 输出：text/plain; charset=utf-8

五、开发实践

1. 前端开发

<!-- HTML5标准声明 -->
<meta charset="UTF-8">

<!-- HTTP响应头设置 -->
Content-Type: text/html; charset=utf-8

2. 后端开发

// Node.js 文件读写
fs.writeFileSync('log.txt', '操作日志', 'utf8')
const content = fs.readFileSync('config.json', 'utf8')

// API响应设置
response.setHeader('Content-Type', 'application/json; charset=utf-8')

3. 数据库配置

数据库	推荐配置
MySQL	utf8mb4（最大支持4个字节，支持emoji） utf8（最大支持3个字节）
PostgreSQL	LC_CTYPE = 'en_US.UTF-8'
MongoDB	存储BSON自动支持UTF-8