应该输出为“我ABC”而不是“我ABC+汉的半个”

本文介绍了一种安全截取包含汉字的字符串的方法,确保在GBK编码下不会出现半个汉字被截取的情况。通过计算汉字实际占用的字节数来调整截取位置,实现了字符串的正确处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import java.io.UnsupportedEncodingException;
public class StrSpliter {
/**
* 编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。 但是要保证汉字不被截半个,如“我ABC”4,应该截为“我AB”,
* 输入“我ABC汉DEF”,6,应该输出为“我ABC”而不是“我ABC+汉的半个”。
*
* @param args
*/
public static void main(String args[]) {
splitIt("我abc的DEF是大法师的", 12);
}
public static void splitIt(String str, int bytes) {
int hanZiBytes = 0;
int interceptBytes = 0;
byte strByte[] = null;
try {
strByte = str.getBytes("GBK");//GBK汉字占用2个字节
//strByte = str.getBytes("UTF-8");//UTF-8汉字占用3个字节

} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
System.out.println("未截取的字符串长度为:" + strByte.length);
for (int i = 0; i < bytes; i++) {
if (strByte[ i ] < 0) {
hanZiBytes++;
}
}
//汉字的字节数为偶数时,直接按总字节截取,汉字的字节数为奇数时 总字节数-1
interceptBytes = (hanZiBytes % 2 == 0) ? bytes : bytes - 1;
/*if(hanZiBytes % 3 == 0){//UTF-8所用的判断
interceptBytes=bytes;
}else if(hanZiBytes % 3 == 1){
interceptBytes=bytes-1;
}else if(hanZiBytes % 3 == 2){
interceptBytes=bytes-2;
}*/
try {
System.out.println("截取结果:" + new String(strByte, 0, interceptBytes, "GBK"));
//System.out.println("截取后:" + new String(strByte, 0, interceptBytes, "UTF-8"));
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
}
}
<!--v:3.2-->
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值