应该输出为“我ABC”而不是“我ABC+汉的半个”-优快云博客

本文介绍了一种安全截取包含汉字的字符串的方法，确保在GBK编码下不会出现半个汉字被截取的情况。通过计算汉字实际占用的字节数来调整截取位置，实现了字符串的正确处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import java.io.UnsupportedEncodingException;
public class StrSpliter {
/**
* 编写一个截取字符串的函数，输入为一个字符串和字节数，输出为按字节截取的字符串。但是要保证汉字不被截半个，如“我ABC”4，应该截为“我AB”，
* 输入“我ABC汉DEF”，6，应该输出为“我ABC”而不是“我ABC+汉的半个”。
*
* @param args
*/
public static void main(String args[]) {
splitIt("我abc的DEF是大法师的", 12);
}
public static void splitIt(String str, int bytes) {
int hanZiBytes = 0;
int interceptBytes = 0;
byte strByte[] = null;
try {
strByte = str.getBytes("GBK");//GBK汉字占用2个字节
//strByte = str.getBytes("UTF-8");//UTF-8汉字占用3个字节

} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
System.out.println("未截取的字符串长度为：" + strByte.length);
for (int i = 0; i < bytes; i++) {
if (strByte[ i ] < 0) {
hanZiBytes++;
}
}
//汉字的字节数为偶数时，直接按总字节截取，汉字的字节数为奇数时总字节数-1
interceptBytes = (hanZiBytes % 2 == 0) ? bytes : bytes - 1;
/*if(hanZiBytes % 3 == 0){//UTF-8所用的判断
interceptBytes=bytes;
}else if(hanZiBytes % 3 == 1){
interceptBytes=bytes-1;
}else if(hanZiBytes % 3 == 2){
interceptBytes=bytes-2;
}*/
try {
System.out.println("截取结果：" + new String(strByte, 0, interceptBytes, "GBK"));
//System.out.println("截取后：" + new String(strByte, 0, interceptBytes, "UTF-8"));
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
}
}