最近做项目,遇到文本格式数据批量导入问题。
文本格式数据各列根据逗号分隔,因为大部分列都不是必须的数据项,所以数据中有空的列存在。读取进去,用split分隔符分隔时,无法得到空的字段,如下:
String test = "aa,,,,";
String[] testArr = test.split(",");
System.out.println(testArr.length);输出结果为:1。testArr中只有“aa”这一个变量。
而且有意思的是我修改test的值变为如下后,结果就改变了:
<pre name="code" class="java">String <span style="font-family: Arial, Helvetica, sans-serif;">test = "aa,,bb,,";</span>String[] <span style="font-family: Arial, Helvetica, sans-serif;">testArr = test.split(",");</span>System.out.println(testArr.length);
结果输出变为:3。这一次split把“aa”和“bb”中间的空格给截取出来了。
到此还是无法解决数据无法全部截取的问题,后来查看,发现split提供了方法应对这种情况:
String test = "aa,,,,";
<pre name="code" class="java">String[] <span style="font-family: Arial, Helvetica, sans-serif;">testArr = test.split(",", -1);// 不忽略空情况</span>System.out.println(testArr.length);
输出则成为:5。
看java api解释为:
split
public String[] split(String regex,
int limit)
根据匹配给定的 正则表达式来拆分此字符串。
此方法返回的数组包含此字符串的子字符串,每个子字符串都由另一个匹配给定表达式的子字符串终止,或者由此字符串末尾终止。数组中的子字符串按它们在此字符串中出现的顺序排列。如果表达式不匹配输入的任何部分,那么所得数组只具有一个元素,即此字符串。
limit 参数控制模式应用的次数,因此影响所得数组的长度。如果该限制 n 大于 0,则模式将被最多应用 n - 1 次,数组的长度将不会大于 n,而且数组的最后一项将包含所有超出最后匹配的定界符的输入。如果 n 为非正,那么模式将被应用尽可能多的次数,而且数组可以是任何长度。如果 n 为 0,那么模式将被应用尽可能多的次数,数组可以是任何长度,并且结尾空字符串将被丢弃。
例如,字符串 "boo:and:foo" 使用这些参数可生成以下结果:
Regex Limit 结果
: 2 { "boo", "and:foo" }
: 5 { "boo", "and", "foo" }
: -2 { "boo", "and", "foo" }
o 5 { "b", "", ":and:f", "", "" }
o -2 { "b", "", ":and:f", "", "" }
o 0 { "b", "", ":and:f" }
调用此方法的 str.split(regex, n) 形式与以下表达式产生的结果完全相同:
Pattern. compile ( regex ). split ( str , n )
参数:
regex - 定界正则表达式
limit - 结果阈值,如上所述以上。
本文介绍如何使用Java的split方法处理包含空字段的CSV格式文本数据,通过设置特定参数实现对空字段的有效读取。
1270

被折叠的 条评论
为什么被折叠?



