处理中英文切割字符串的方法

本文提供了一个算法,用于将输入文本解析为指定宽度的字符串数组,并在遇到换行符或超过指定宽度时进行换行。算法通过逐字符检查,识别并处理文本中的换行符和长子串,确保输出符合需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

public static String[] parseTxt(String text, int width, Font font,
			char newLine) {
		Vector vector = new Vector();
		int offset = 0;
		int maxLength = text.length(); // 字符串总长度
		boolean endFlag; // 标记是否已经换行

		while (offset < maxLength) {
			if (text.charAt(offset) == newLine) {
				// 如果第一个字符是换行符,添加一个空串,偏移值加一,继续检索
				vector.addElement("");
				offset++;
			} else {
				endFlag = false;
				for (int i = 1; offset + i < maxLength; i++) {
					if (text.charAt(offset + i) == newLine) {
						// 遇到换行符,添加子串
						int diff = offset + i;
						if (newLine == '\n') {
							diff += 1;
						}
						vector.addElement(text.substring(offset, diff));
						offset += i + 1;
						endFlag = true;
						break;
					} else if (font.charsWidth(text.toCharArray(), offset,
							i + 1) > width) {
						// 子串长度大于指定宽度,终止搜索,添加子串
						if (i >= 2 && isLetter(text.charAt(offset + i))
								&& isLetter(text.charAt(offset + i - 1))) {
							// 判断结束相关的3个字符类型为字母,则添加换行连接符”-“
							if (isLetter(text.charAt(offset + i - 2)))
								vector.addElement(text.substring(offset, offset + i - 1) + "-");
							else
								vector.addElement(text.substring(offset, offset+ i - 1));
							offset += (i - 1);
						} else {
							vector.addElement(text
									.substring(offset, offset + i));
							offset += i;
						}
						endFlag = true;
						break;
					}
				}
				if (!endFlag) {
					// 搜索到整个原始串的结尾时,添加剩余的部分
					vector.addElement(text.substring(offset));
					break;
				}
			}
		}

		int size = vector.size();
		String[] txt = new String[size];
		for (int i = 0; i < size; i++)
			txt[i] = ((String) vector.elementAt(i));
		return txt;
	}
	// 字母ASCII码,A-Z:65-90,a-z:97-122
	public static boolean isLetter(char c){
		if((c >= 65 && c <= 90) || (c >= 97 && c <= 122))
			return true;
		return false;
	}

<> 一些背景知识: 1. 一个汉字在c\c++的存储, 使用2个字节(char)存储; 2. 汉字存储的第一个char, 其值一定大于'~'(0111 1110=126),否则将导致识别歧义; 此处, 使用"单ASCII字符"来表示非 单ASCII字符的判断, 可以根据以下规则(主要R3, R4); : 一个字符串的长度==1,那肯定是一个ASCII字符; : 一个字符串的长度==2,且第1个ASCII字符的编码小于'~'; 那肯定是2个单ASCII字符; -- (PS: "") : 一个字符串的长度==3,且中间的ASCII字符的编码小于'~'; 那第3个肯定是单ASCII字符; (前2个是否构成1个汉字不能确定) : (基于R3)如果第pos个位置的ASCII字符编码小于'~', 那从下标pos,pos+1处拆分字符串 (下标pos归前串),将不会导致乱码; A 或者 B 的选择,需要知道以下信息: (1). 从 cut_base_pos 开始到 pos_B 结束的这段字符串内, 最后一个单ASCII字符的结束下标 p 在此基础上, 若使用: y -- 表示单ASCII字符(已确定的); x -- 表示可能是 单ASCII字符,也可能是 汉字的半个ASCII存储码; 那么一段长度为N的字符串,按照存储的ASCII码可以表示为一串如下的字符串(不包含[]) "x .. x][x .. x y x .. x][x .. x", 其中 s,e表示当前正在分析的一段子串(0<=s<e<=N, 下标e-s = 期望的分割长度cut_size) ^ ^ ^ ^ ^ 0 s p e N 在 【s, e】 之间, 查找结束下标p 的思路: 从e开始向s查找, 找到 第一个y 后 break; 记录下标p, 则从位置p开始, 是一个正确的分割(cut); 但此分割并不是一个最好的分割. 可以在 位置p上, 再加上 2K 个长度, 使 p+2K 与 pos_B 最接近即可. 可以认为从2K个长度的内容是K个汉字(实际上并不一定..), 但并不影响这个最佳分割的正确性! :)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值