今天用到subString时发现当我们在分别截取中英文时会出现意想不到的问题啊。。。
subString 截取的是个数,而不是按字节数来截取。
解决问题方法:
1. 如果是纯中英文,很简单,不解释。
2. 如果是中英文混合写,需要考虑到转换成byte数组来处理时,可能会碰到乱码的问题。比如你刚好截取到中文的一半。。。
给出一个方法:【利用java中文是用Unicode编码即UCS2编码来制作一个byte数组,利用内部机制来凑齐字符】
public static String bSubstring(String s, int length) throws Exception
{
byte[] bytes = s.getBytes("Unicode");
int n = 0; // 表示当前的字节数
int i = 2; // 前两个字节是标志位,bytes[0] = -2,bytes[1] = -1。所以从第3位开始截取。
for (; i < bytes.length && n < length; i++)
{
// 奇数位置,如3、5、7等,为UCS2编码中两个字节的第二个字节
if (i % 2 == 1)
{
n++; // 在UCS2第二个字节时n加1
}
else
{
// 当UCS2编码的第一个字节不等于0时,该UCS2字符为汉字,一个汉字算两个字节
if (bytes[i] != 0)
{
n++;
}
}
}
// 如果i为奇数时,处理成偶数
if (i % 2 == 1)
{
// 该UCS2字符是汉字时,去掉这个截一半的汉字
if (bytes[i - 1] != 0)
i = i - 1;
// 该UCS2字符是字母或数字,则保留该字符
else
i = i + 1;
}
return new String(bytes, 0, i, "Unicode");
}
本文介绍了一种在Java中处理中英文混合字符串截取的方法,通过利用Unicode编码机制确保截取过程中不会出现乱码,特别适用于需要精确控制字符数量的应用场景。
750

被折叠的 条评论
为什么被折叠?



