建表时数据库建议使用 utf8mb4字符集

本文解析了MySQL中UTF-8字符集的局限性,特别是对于需要四个字节编码的生僻字的支持问题,并介绍了UTF-8MB4字符集如何提供更好的兼容性和解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

之前一直认为,utf8mb4相比utf8最大的作用就是能存储Emoji表情,直到遇到了内容中带有【熌】的文章需要入库的时候。

普及两个知识

 

  • UTF-8字符集编码有可能是两个、三个、四个字节。但MySQL中的utf8字符集,最多只能存储三个字节的字符,除Emoji表情之外,还有一些生僻字是需要四个字节的,比如前面提到的【熌】字
  • 查看某文字占用的字节数,可使用Linux中echo -n 字|xdd命令来把该汉字转为十六进制格式输出。

 
可看到“测”字的十六进制格式为e6b58b,每个十六进制占用0.5个字节,所以“测”字整体是3字节,MySQL中的utf8字符集可以支持,再看来【熌】字。


由8eedbaa4这8个十六进制组成,占4个字节,传统的utf8字符集无法支持。
入库时,会截断内容,4字节以及之后内容无法写入。

解决办法

 

  • 建表时,如果版本支持(MySQL5.5.3及以上),为了获得更好的兼容性,建议使用utf8mb4字符集,在utf8mb4字符集下,字符串的char类型会多消耗一些空间,建议utf8mb4字符集下,使用varchar代替char类型。
  • 如果版本不支持,而且又因为生产环境项目过多而无法升级,可将4字节的字符转换成base64、json甚至url编码后入库
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值