使用Unicode中文编码及中文标点符号

本文介绍了一种用于将字符串中的中文及中文标点符号转换为Unicode编码的方法。通过使用Character类的UnicodeBlock特性来识别并转换特定字符,适用于需要进行字符串编码处理的场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Unicode编码看百度也很少所以自己整理下来。

项目需要,将一段字符串里面含有中文,英文,中英文标点符号。其中 中文,中标点符号使用Unicode编码。

类似这种

String code="下雨了!;。wxn;,.";

只需要两个方法,

  // 根据UnicodeBlock方法判断中文标点符号
    public static boolean isChinesePunctuation(char c) {
        Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
        if (ub == Character.UnicodeBlock.GENERAL_PUNCTUATION
                || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
                || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
                || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS
                || ub == Character.UnicodeBlock.VERTICAL_FORMS) {
            return true;
        } else {
            return false;
        }
    }
 /**
     * 字符串转换unicode
     */
    public static String string2Unicode(String codeResult) {
        Pattern p = Pattern.compile("[0-9]*");
        Matcher m = p.matcher(codeResult);
        StringBuffer unicode = new StringBuffer();

        for (int i = 0; i < codeResult.length(); i++) {

            // 取出每一个字符
            char c = codeResult.charAt(i);
            p = Pattern.compile("[\u4e00-\u9fa5]");
            m = p.matcher(String.valueOf(c));
            //判断是否为  中文
            if (m.matches()) {
                // 将汉字转换为unicode
                unicode.append("\\u" + Integer.toHexString(c));
                //判断是否为中文标点符号
            } else if (isChinesePunctuation(c)) {
                // 将中文标点符号转换为unicode
                unicode.append("\\u" + Integer.toHexString(c));
            } else {
                unicode.append(c);
            }

        }

        return unicode.toString();
    }

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值