【Mysql】utf8和utf8mb4的区别

本文介绍了计算机中的基本数据单位(如bit,byte,word),以及ASCII和Unicode编码系统。重点讨论了UTF-8和UTF-8mb4编码的区别,包括字符长度、emoji支持、排序规则和MySQL中的应用。建议新项目使用utf8mb4以支持更广泛的字符,尤其是emoji。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 基础知识

1.1 bit , byte , word

字     word 

字节  byte (B)

位     bit (b)

1.2 单位换算

1字节 = 8位(1 byte = 8bit)

1字 = 2字节(1 word = 2 byte)

一个汉字 = 2字节 

中文标点 = 三个字节

一个英文字母 = 一个字节

英文标点 = 一个字节

Emoji表情或者某些特殊字符 = 4个字节

1.3 Ascll

因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。

最早的计算机在设计时采用8个比特(bit)作为一个字节(byte)。

一个字节能表示的最大的整数就是255(2^8-1=255),而ASCII编码,占用0 - 127用来表示大小写英文字母、数字和一些符号,这个编码表被称为Ascll表,比如大写字母A的编码是65,小写字母z的编码是122。

1.4 Unicode 

如果要表示中文,显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲突,所以,中国制定了GB2312编码,用来把中文编进去。

类似的,日文和韩文等其他语言也有这个问题。为了统一所有文字的编码,Unicode应运而生。Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。

Unicode通常用两个字节表示一个字符,原有的英文编码从单字节变成双字节,只需要把高字节全部填为0就可以。

2. utf8 & utf8mb4

2.1 utf8

是针对Unicode的一种可变长度字符编码。

由于对可以用Ascll表示的字符,使用Unicode并不高效,因为Unicode比Ascll占用大一倍的空间,而对ASCII来说高字节的0对他毫无用处。

为了解决这个问题,就出现了一些中间格式的字符集,他们被称为通用转换格式,即UTF(Unicode Transformation Format)。

2.2 utf8mb4(mb4 = most bytes 4)

所以utf8是utf8mb4的子集,除了将编码改为utf8mb4外不需要做其他转换。

MySQL在5.5.3之后增加了这个utf8mb4的编码,mb4就是most bytes 4的意思,专门用来兼容四字节的unicode。好在utf8mb4是utf8的超集,除了将编码改为utf8mb4外不需要做其他转换。当然,为了节省空间,一般情况下使用utf8也就够了。

 既然utf8应付日常使用完全没有问题,那为什么还要使用utf8mb4呢?

低版本的MySQL支持的utf8编码,最大字符长度为 3 字节,如果遇到 4 字节的字符就会出现错误了。

三个字节的 UTF-8 最大能编码的 Unicode 字符是 0xFFFF,也就是 Unicode 中的基本多文平面(BMP)。

也就是说,任何不在基本多文平面的 Unicode字符,都无法使用MySQL原有的 utf8 字符集存储。

 可以到以下的链接,看unicode编码区从1 ~ 126就属于传统utf8区,当然utf8mb4也兼容这个区,126行以下就是utf8mb4扩充区,什么时候你需要存储那些字符,你才用utf8mb4,否则只是浪费空间。  

编码

http://blog.youkuaiyun.com/leelyliu/article/details/52879685

2.3 utf8mb4比utf8多了emoji编码支持

如果实际用途上来看,可以给要用到emoji的库或者说表,设置utf8mb4.

比如评论要支持emoji可以用到.

建议普通表使用utf8 如果这个表需要支持emoji就使用utf8mb4

2.4 排序规则

排序规则选择常用的有utf8_general_ci , utf8_unicode_ci

utf8_unicode_ci   是基于标准的Unicode来排序和比较,能够在各种语言之间精确排序 , 为了能够处理特殊字符的情况,实现了略微复杂的排序算法。

所以  utf8_unicode_ci   的准确性比较好 , 但是性能相对比较低。

utf8_general_ci  没有实现Unicode排序规则,在遇到某些特殊语言或字符是,排序结果可能不是所期望的。

比如Unicode把ß、Œ当成ss和OE来看;而general会把它们当成s、e,再如ÀÁÅåāă各自都与 A 相等。在比较和排序的时候更快 ,所以utf8_general_ci  的准确性较低 , 但是性能比较好。通常情况下 utf8_general_ci的准确性就够我们用的了。

索引长度,从utf8转utf8mb4,容易引起索引键超长错误,InnoDB有单个索引最大字节数 768 的限制,而字段定义的是能存储的字符数,比如 VARCHAR(200) 代表能够存200个汉字,索引定义是字符集类型最大长度算的,超过768后抛出异常。

2.5 推荐新项目中使用utf8mb4的编码

UTF-8 编码是一种变长的编码机制,可以用1~4个字节存储字符。

因为历史遗留问题,MySQL 中的 utf8 编码并不是真正的 UTF-8,而是阉割版的,最长只有3个字节。

当遇到占4个字节的 UTF-8 编码,例如 emoji 字符或者复杂的汉字,会导致存储异常。

从 5.5.3 开始,MySQL 开始用 utf8mb4 编码来实现完整的 UTF-8,其中 mb4 表示 most bytes 4,最多占用4个字节。

从 8.0 之后,将会在某个版本开始用 utf8mb4 作为默认字符编码。

创建数据库时,如果没有指定字符集,会采用服务器的默认字符集。设置服务器默认字符集为 utf8mb4 可以提高便利性。

MySQL中`utf8mb3``utf8mb4`字符集的主要区别在于它们所支持的字符范围以及编码方式。以下是对这两者的详细对比分析: ### 字符集定义与支持的字符范围 - `utf8mb3`是MySQL早期版本中对UTF-8编码的支持,它仅使用最多3个字节来存储字符,这意味着它只能覆盖Unicode的基本多语言平面(Basic Multilingual Plane, BMP),即U+0000到U+FFFF之间的字符。因此,像表情符号(emojis)这类位于辅助平面(Supplemental Planes)上的字符无法通过`utf8mb3`正确表示[^4]。 - 相比之下,`utf8mb4`则完全兼容标准的UTF-8编码规范,能够利用至多4字节来编码一个字符,从而可以完整地支持整个Unicode字符集,包括但不限于表情符号其他特殊字符。 ### 存储效率与性能考量 - 由于`utf8mb4`需要额外的空间来保存那些超出BMP范围的字符,对于只包含常见文字的应用场景来说,采用`utf8mb3`可能会稍微节省一些存储空间。然而,在实际应用中这种差异往往微乎其微,特别是在现代数据库系统里通常会采取各种优化措施以减少不必要的开销。 - 在处理速度方面两者之间并没有显著差异;不过需要注意的是,如果启用了某些特定的语言排序规则(如`utf8mb4_unicode_ci`),那么这可能会影响到查询操作的速度,因为这些规则要求更复杂的比较逻辑[^5]。 ### 排序规则(Collation) - 对于`utf8mb3`,常见的排序规则有`utf8_general_ci`、`utf8_unicode_ci`等;而针对`utf8mb4`则提供了更多选项,例如`utf8mb4_unicode_ci`、`utf8mb4_0900_ci`以及二进制形式的`utf8mb4_bin`等。不同的排序规则决定了如何根据特定语言环境进行大小写不敏感或区分重音符号的操作[^1]。 - 特别指出的是,随着MySQL版本更新,推荐使用基于最新Unicode版本的新排序规则,比如`utf8mb4_0900_ci`就基于Unicode 9.0标准,提供了更好的国际化支持。 ### 兼容性及未来趋势 - 鉴于`utf8mb3`已经不再被官方积极维护,并且计划在未来版本中移除,建议新项目直接采用`utf8mb4`作为默认字符集,以便获得更广泛的语言支持长期的技术保障[^3]。 - 此外,考虑到互联网上越来越多的内容开始依赖于非传统文本元素(如社交媒体中的表情包),升级至`utf8mb4`显得尤为必要。 综上所述,尽管在某些情况下`utf8mb3`仍可满足基本需求,但从长远角度来看选择`utf8mb4`将是更加明智之举,尤其是在构建面向全球用户群体的应用程序时。 ```sql -- 示例:创建使用utf8mb4字符集的数据库 CREATE DATABASE example_db CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值