android | 限制emoji末尾乱码的字节长度限制过滤器实现

原创已于 2024-01-17 19:34:39 修改 · 712 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#android #kotlin

于 2024-01-09 10:35:30 首次发布

安卓专栏收录该内容

9 篇文章

订阅专栏

本文介绍了在处理UTF-8编码限制下，如何实现输入框支持中文、emoji且无乱码，通过InputFilter实现字节长度限制，特别关注了如何处理emoji的高位代理和低位代理，以及截断策略来确保输入的正确性。

当输入框的长度限制是以UTF-8字节为单位，但又需要支持输入中文、emoji，并且还不能出现emoji乱码？

实现以上需求，你需要知道的事：

中文字符转UTF-8为3个字节，emoji为4个字节。
emoji由高位代理和低位代理组成，少其中一个都会导致乱码。
- 参考链接1：Java Surrogate, isHighSurrogate, isLowSurrogate 是什么? 按字节截取emoji
- 参考链接2：【原创】经验分享：一个小小emoji尽然牵扯出来这么多东西？
InputFilter中的source、start、end、dest、dstart、dend都代表了什么？
- 参考链接：InputFilter参数含义参考（source\ start\ end\ dest\ dstart\ dend）

理解以上要点之后，就着手代码的编写，方法的核心是：

先将所有的字符(英文、中文、emoji、其他字符)都转成UTF-8，判断新输入的字符是否满足长度需求。
若不满足，则需要按照最大允许的长度，截断输入的字符。
判断截断后的字符是否存在emoji末位乱码情况，有则回退，不允许输入半个emoji

/**
 * 限制emoji末尾乱码的字节长度限制过滤器
 *
 * @param source 输入的文字
 * @param start 输入-0，删除-0
 * @param end 输入-文字的长度，删除-0
 * @param dest 原先显示的内容
 * @param dstart 输入-原光标位置，删除-光标删除结束位置
 * @param dend  输入-原光标位置，删除-光标删除开始位置
 * @return
*/
class LimitCharLengthFilter(private var max: Int) : InputFilter {
    override fun filter(
        source: CharSequence,
        start: Int,
        end: Int,
        dest: Spanned,
        dstart: Int,
        dend: Int
    ): CharSequence {
        GlobalTouchUtil.onGlobalTouch()

        val bytes = dest.toString().toByteArray(StandardCharsets.UTF_8).size
        val sourceBytes = source.toString().toByteArray(StandardCharsets.UTF_8).size

        var keep = 0
        if (bytes + sourceBytes <= max) {
            //输入source之后整体长度不会超过max限制
            keep = source.length
        } else {
            for (i in source.indices) {
                //转成UTF-8
                val currentSourceBytes = source.subSequence(0, i + 1)
                    .toString().toByteArray(StandardCharsets.UTF_8).size

                if (bytes + currentSourceBytes > max) {
                    //超长则截断，记录当前标记，为了不显示后面的字符
                    keep = i
                    //若截断后是半个emoji结尾
                    if (Character.isHighSurrogate(source[ keep ])  ||   Character.isLowSurrogate(source[ keep ])) {
                        //回退这半个emoji，不展示这个emoji，防止乱码
                        --keep
                        if (keep == start) {
                            return ""
                        }
                    }
                    break
                }
            }
        }

        return if (keep <= 0) "" else source.subSequence(start, keep + start)
    }
}

方法调用举例如下：

const val USER_NAME_MAX_LENGTH = 63

//ChineseAndEnglishInputFilter是自定义的限制输入字符范围的filter
//LimitCharLengthFilter(USER_NAME_MAX_LENGTH )是本文介绍的限制emoji末尾乱码的字节长度限制过滤器
etInput.getEditText()?.filters =  listOf(ChineseAndEnglishInputFilter,LimitCharLengthFilter(USER_NAME_MAX_LENGTH ))