经过网上各种查找加上自身的测试实验,得知三种可行的方法。
mysql的utf8编码的一个字符最多3个字节,但是一个emoji表情为4个字节,所以utf8不支持存储emoji表情。
但是utf8的超集utf8mb4一个字符最多能有4字节,所以能支持emoji表情的存储。
一:修改mysql配置文件(Linux是my.cnf;windows是my.ini)
[client]
default-character-set=utf8mb4
[mysqld]
character-set-client-handshake = FALSE
character-set-server = utf8mb4
collation-server = utf8mb4_unicode_ci
init_connect=’SET NAMES utf8mb4'
[mysql]
default-character-set=utf8mb4
修改完重新启动mysql服务,即可。
二:在插入emoji前修改数据库的编码格式
或者在项目配置数据源的时候在initsql中写上
SET NAMES utf8mb4
自己手动配置数据源
datasource.setInitSQL("SET NAMES utf8mb4");或者数据源xml里面配置
三:上面两种都是利用utf8的超集utf8mb4来存储emoji,第三种是将emoji利用URLEncoder解码存储到utf8编码的字符
String patternString = "([\\x{10000}-\\x{10ffff}\ud800-\udfff])"; Pattern pattern = Pattern.compile(patternString); Matcher matcher = pattern.matcher(str); StringBuffer sb = new StringBuffer(); while (matcher.find()) { try { matcher.appendReplacement(sb, "[[" + URLEncoder.encode(matcher.group(1) , "UTF-8") + "]]"); } catch (UnsupportedEncodingException e) { throw e; } } // 把最后一次匹配到内容之后的字符串追加上去 matcher.appendTail(sb); return sb.toString();
使用时将用utf8保存的emoji还原
String patternString = "\\[\\[(.*?)\\]\\]";
matcher.appendReplacement(sb,URLDecoder.decode(matcher.group(1), "UTF-8"));