怎么判断字符串里的中文字符_中文字符串识别-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_27193479/article/details/103012719

本文深入探讨了GB2312和UTF-8编码的区别，详细解释了汉字在不同编码下的字节占用情况，并提供了在Java中处理这两种编码的实用代码示例，包括如何正确截取包含汉字的字符串，避免截断半个汉字的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

思考：解决问题之前，我们需要了解的是，在GB2312字符集的编码中汉字占2个字节，字母和其他字符占一个字节，而在utf-8中汉字占3，或者4个字节，字母占2个字节，由于utf一下占2个3个字节，一下占4个字节，不好拆分出指定的汉字加字母，所以才用GB2312的编码格式，汉字占2个字节，字母一个字节。
GB2312规定对收录的每个字符采用两个字节表示，第一个字节为“高字节”，对应94个区；第二个字节为“低字节”，对应94个位。所以它的区位码范围是：0101－9494。区号和位号分别加上0xA0就是GB2312编码。例如最后一个码位是9494，区号和位号分别转换成十六进制是5E5E，0x5E+0xA0＝0xFE，所以该码位的GB2312编码是FEFE。
GB2312编码范围：A1A1－FEFE，其中汉字的编码范围为B0A1-F7FE，第一字节0xB0-0xF7（对应区号：16－87），第二个字节0xA1-0xFE（对应位号：01－94）。A-F的二进制最高位都为1
所以：在把汉字转换成字节的时候，输出的字节的值小于0，字母转换成字节的时候，输出的值就是其对应的数字。

编写一个截取字符串的函数，输入为一个字符串和字节数，输出为按字节截取的字符串。 但是要保证汉字不被截半个。
如“我ABC”4，应该截为“我AB”，输入“我ABC汉DEF”，6，应该输出为“我ABC”而不是“我ABC+汉的半个”。

        public static String splitString(String str, int byteLength)
            throws Exception {
        //如果字符串为空，直接返回
        if(str == null || "".equals(str)) {
            return str;
        }
        //用于统计这个字符串中有几个中文字符
        int wordCount = 0;
        //统一按照gbk编码来得到他的字节数组，因为不同的编码字节数组是不一样的。
        byte[] strBytes = str.getBytes("GB2312");

        //如果只截取一位，而且第一位是中文字符时的处理
        if (byteLength == 1) {
            if (strBytes[0] < 0) {
                return str.substring(0, 1);
            }
        }
        //字符串中的一个中文会使得wordCount 加两次
        //如果你这个字节取出来的是一个汉字也就是两个字节当中的一个的话val的值为负数
        for (int i = 0; i < byteLength; i++) {
            int val = strBytes[i];
            if (val < 0) {
                wordCount++;
            }
        }

        //如果传递的这个截取的位数没有截到半个中文上面，那么就按照byteLength - (wordCount / 2)个长度进行截取
        if (wordCount % 2 == 0) {
            return str.substring(0, (byteLength - (wordCount / 2)));
        }
        //否则，我们就舍弃多出来的这一位 所以  -1
        return str.substring(0, (byteLength - (wordCount / 2) - 1));
    }

第二种方式是用正则表达式、Unicode 编码来判断

https://blog.youkuaiyun.com/yspxiaopanni/article/details/93624871

Java用的是Unicode 编码char 型变量的范围是0-65535 无符号的值，可以表示 65536个字符。
unicode编码范围：
汉字：[0x4e00,0x9fa5]（或十进制[19968,40869]）
数字：[0x30,0x39]（或十进制[48, 57]）
小写字母：[0x61,0x7a]（或十进制[97, 122]）
大写字母：[0x41,0x5a]（或十进制[65, 90]）

汉字编码范围:\u4e00-\u9FA5

双字节字符编码范围:\u0391-\uFFE5

第一步：判断是否存在汉字

public boolean generateJudgment(String countname)
    {
         Pattern p = Pattern.compile("[\u4e00-\u9fa5]");
            Matcher isNum = p.matcher(countname);
            if (isNum.find()) {
                return true;
            }
            return false;
    }