一道字符串截取的编程题

最新推荐文章于 2023-02-15 14:28:52 发布

最新推荐文章于 2023-02-15 14:28:52 发布 · 355 阅读

文章标签：

#编程

Java 专栏收录该内容

25 篇文章

订阅专栏

最近接触到一道字符串截取的编程题：编写一个截取字符串的函数，输入为一个字符串和字节数，输出为按字节截取的字符串。但是要保证汉字不被截半个，如“我ABC”4，应该截为“我AB”，输入“我ABC汉DEF”，6，应该输出为“我ABC”而不是“我ABC+汉的半个"。

了解Java的都知道Java中char是用Unicode-16表示的，char型占两个字节。通常采用Unicode-16的编码，一个代码单元就可以表示一个字符，极特殊的辅助字符需要一对代码单元来表示。String的length()方法返回的就是代码单元的数量。问题就在于汉字也好，普通字母数字也好基本上都是一个代码单元就能表示，所以无法区分。但是这些非西欧字符集虽然也是占两个字节，但是西欧字符的高8位是置0的，利用这个性质可以尝试写一个解决方案。

/**
 * @author: yanxuxin
 * @date: 2010-3-10
 */
public class SplitString {

	public static void main(String[] args) {
		splitStr("我ABC", 4);
		splitStr("我ABC汉DEF", 6);
	}

	public static void splitStr(String s, int bytes) {
		int offset = 0; //计算位数偏移量
		int i = 0; //统计实际代码单元数
		for (; i < s.length(); i++) {
			char tmp = s.charAt(i);

			int t = tmp & 0xff00; //截取高8位进行判断
			if (t > 0) {
				offset += 2;
			}
			else {
				offset++;
			}

			if (offset >= bytes) {
				if (offset == bytes) {
					i++;
				}
				break;
			}
		}
		System.out.println("Result=" + s.substring(0, i));
	}
}