最近接触到一道字符串截取的编程题:编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。 但是要保证汉字不被截半个,如“我ABC”4,应该截为“我AB”,输入“我ABC汉DEF”,6,应该输出为“我ABC”而不是“我ABC+汉的半个"。
了解Java的都知道Java中char是用Unicode-16表示的,char型占两个字节。通常采用Unicode-16的编码,一个代码单元就可以表示一个字符,极特殊的辅助字符需要一对代码单元来表示。String的length()方法返回的就是代码单元的数量。问题就在于汉字也好,普通字母数字也好基本上都是一个代码单元就能表示,所以无法区分。但是这些非西欧字符集虽然也是占两个字节,但是西欧字符的高8位是置0的,利用这个性质可以尝试写一个解决方案。
这里主要利用了[color=red]int t = tmp & 0xff00[/color]截得字符的高8位进行判断,针对汉字这样的方案应该是可行的,如果是一些占有两个代码单元的,还要去使用找代码点的方法进行进一步的分割。
了解Java的都知道Java中char是用Unicode-16表示的,char型占两个字节。通常采用Unicode-16的编码,一个代码单元就可以表示一个字符,极特殊的辅助字符需要一对代码单元来表示。String的length()方法返回的就是代码单元的数量。问题就在于汉字也好,普通字母数字也好基本上都是一个代码单元就能表示,所以无法区分。但是这些非西欧字符集虽然也是占两个字节,但是西欧字符的高8位是置0的,利用这个性质可以尝试写一个解决方案。
/**
* @author: yanxuxin
* @date: 2010-3-10
*/
public class SplitString {
public static void main(String[] args) {
splitStr("我ABC", 4);
splitStr("我ABC汉DEF", 6);
}
public static void splitStr(String s, int bytes) {
int offset = 0; //计算位数偏移量
int i = 0; //统计实际代码单元数
for (; i < s.length(); i++) {
char tmp = s.charAt(i);
int t = tmp & 0xff00; //截取高8位进行判断
if (t > 0) {
offset += 2;
}
else {
offset++;
}
if (offset >= bytes) {
if (offset == bytes) {
i++;
}
break;
}
}
System.out.println("Result=" + s.substring(0, i));
}
}
这里主要利用了[color=red]int t = tmp & 0xff00[/color]截得字符的高8位进行判断,针对汉字这样的方案应该是可行的,如果是一些占有两个代码单元的,还要去使用找代码点的方法进行进一步的分割。