一道字符串截取的编程题

最近接触到一道字符串截取的编程题:编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。 但是要保证汉字不被截半个,如“我ABC”4,应该截为“我AB”,输入“我ABC汉DEF”,6,应该输出为“我ABC”而不是“我ABC+汉的半个"。

了解Java的都知道Java中char是用Unicode-16表示的,char型占两个字节。通常采用Unicode-16的编码,一个代码单元就可以表示一个字符,极特殊的辅助字符需要一对代码单元来表示。String的length()方法返回的就是代码单元的数量。问题就在于汉字也好,普通字母数字也好基本上都是一个代码单元就能表示,所以无法区分。但是这些非西欧字符集虽然也是占两个字节,但是西欧字符的高8位是置0的,利用这个性质可以尝试写一个解决方案。
/**
* @author: yanxuxin
* @date: 2010-3-10
*/
public class SplitString {

public static void main(String[] args) {
splitStr("我ABC", 4);
splitStr("我ABC汉DEF", 6);
}

public static void splitStr(String s, int bytes) {
int offset = 0; //计算位数偏移量
int i = 0; //统计实际代码单元数
for (; i < s.length(); i++) {
char tmp = s.charAt(i);

int t = tmp & 0xff00; //截取高8位进行判断
if (t > 0) {
offset += 2;
}
else {
offset++;
}

if (offset >= bytes) {
if (offset == bytes) {
i++;
}
break;
}
}
System.out.println("Result=" + s.substring(0, i));
}
}

这里主要利用了[color=red]int t = tmp & 0xff00[/color]截得字符的高8位进行判断,针对汉字这样的方案应该是可行的,如果是一些占有两个代码单元的,还要去使用找代码点的方法进行进一步的分割。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值