大数据排重

注意用来排重的那个集合放到Set中, 可以是HashSet,或者其他Set(推荐使用HashSet),因为Set的contains效率更高,比list高很多

----------------------------------------------------------------------------------------------------------------------------------------------------------------------

我们有1000万条数据,保存在一个txt中,每一行一行的读,然后如果有重复的数据则忽略,cardArr[0])里保存的是流水号,我们最终的数据 流水号不能相同

Set<String> serialNoList = new HashSet<String>();//保存流水号,用于去重- - - - - - - - - - 这里是个set,因为set的contains的效率更高

while ((line = reader.readLine()) != null) {

  

  String[] cardArr = line.split("\\|");

  //如果文件中的流水号重复,则去重
  if(serialNoList.contains(cardArr[0])){
    continue;
  }
  serialNoList.add(cardArr[0]);

}

http://blog.tommyyang.cn/2017/11/06/%E5%A4%A7%E6%95%B0%E6%8D%AEList%E5%8E%BB%E9%87%8D/

 

转载于:https://www.cnblogs.com/donefive/p/9705999.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值