字符编码简单了解-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_54104864/article/details/136203677

本文探讨了字符编码在计算机中的重要性，介绍了ASCII、单字节编码、多字节编码如GBK和UTF-8，以及Unicode的统一作用。重点讲述了MySQL中不同字符集的选择原则，强调了在多语种环境下的编码统一性和正确性，以防止乱码问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

字符编码的产生背景
- 在计算机内部,所有数据都是以二进制形式存储的
- 不同的国家/语言有自己的文字符号,需要使用编码将其映射为计算机可识别的二进制
- 最早的ASCII码只支持128个字符,无法满足多语种需求,促进了多种字符编码的出现
常见的单字节编码和多字节编码
- 单字节编码:ASCII、ISO-8859、Latin-1等,每个字符占一个字节,最多只能表示256个符号
- 多字节编码:GBK、GB18030、Big5、UTF-8等,每个字符占1-4个字节,可表示更多符号
Unicode的提出及重要性
- Unicode旨在统一全球所有文字的编码,目前已超过12万个字符
- UTF-8、UTF-16等编码方案是基于Unicode,充分兼容了全球多语种
- Unicode极大推动了多语种软件的发展和数据交换
常见字符编码的对比
- ASCII: 只能表示英文,编码最简单
- Latin-1: 保留ASCII原编码,增加一些西欧字符
- GBK: 常用汉字只需两个字节,生僻字需四个字节
- UTF-8: 向后兼容ASCII,对英文只需一个字节,汉字通常三个字节
- UTF-16: 固定两个字节或四个字节编码大多数字符
常见编码问题及应对措施
- 乱码问题:通常由编码不一致导致,需要统一使用相同编码
- 中文路径问题:Windows默认GBK,Linux默认UTF-8,需要特殊处理
- 数据存储问题:在字符串存储前,先要进行字符编码转换(如到UTF-8)
- 字符编码维护:系统/库/表/列都可设置默认编码,需要明确定义