按长度分割字符串,兼容中文

本文介绍了一种兼容中文字符的字符串分割方法,该方法能够根据指定长度将字符串分割成多个子串,同时考虑到中文字符通常占两个字节的特点。
/**
	 * 字符串按长度分割,兼容中文
	 * @param s			原字符串
	 * @param length	分割的长度(集合元素最大的长度为这个长度+1)
	 * @return
	 */
	public static List<String> getSplitedString(String s,int length){
		List<String> splitedString = new ArrayList<String>();
		if (s == null || s.length() == 0) {
			return splitedString;
		}
		int len = 0; // 保存实际集合元素的长度
		StringBuffer sb = new StringBuffer(1001);// 集合元素
		for (int i = 0; i < s.length(); i++) {
			char c = s.charAt(i);
			sb.append(c);
			if (isChinese(c)) { // 是中文汉字和符号
				len = len + 2; // 长度加2
			} else {
				len++;// 其它长度加1
			}
			if(len>=length){//实际长度大于或等于规定长度,向集合中添加元素,并重置临时变量
				splitedString.add(sb.toString());
				len = 0;
				sb = new StringBuffer(1001);
			}
		}
		if(sb.length()>0){
			splitedString.add(sb.toString());
		}
		return splitedString;
	}
	
	
	// 根据Unicode编码完美的判断中文汉字和符号
	private static boolean isChinese(char c) {
		Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
		if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
				|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
				|| ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
				|| ub == Character.UnicodeBlock.GENERAL_PUNCTUATION) {
			return true;
		}
		return false;
	}

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值