对ArrayList元素分组去重

本文介绍了一种不使用SQL GROUP BY语句而在Java内存中实现数据分组与去重的方法,通过自定义对象的hashCode和equals方法,并利用HashSet的特性完成去重。

概述


通常使用SQL查询一批数据的时候,可以利用SQL中的GROUP BY语句对数据进行分组,但是有时候出于对性能的考虑,不会使用GROUP BY,而是先把数据捞出来后,使用代码,在内存中按照某个属性进行分组。

当然有时候还会对分组里面的数据进行去重,这个时候也可以利用覆盖对象的hashCodeequals方法,利用HashSet的去重特性来达到目的


代码


public class SkuVo {

    private Long skuId;
    private String productName;
    private Long brandStoreSn;

    public SkuVo(Long skuId, String productName, Long brandStoreSn) {
        super();
        this.skuId = skuId;
        this.productName = productName;
        this.brandStoreSn = brandStoreSn;
    }

    public Long getSkuId() {
        return skuId;
    }
    public void setSkuId(Long skuId) {
        this.skuId = skuId;
    }
    public String getProductName() {
        return productName;
    }
    public void setProductName(String productName) {
        this.productName = productName;
    }
    public Long getBrandStoreSn() {
        return brandStoreSn;
    }
    public void setBrandStoreSn(Long brandStoreSn) {
        this.brandStoreSn = brandStoreSn;
    }

    @Override
    public String toString() {
        return "SkuVo [skuId=" + skuId + ", productName=" + productName + ", brandStoreSn=" + brandStoreSn + "]";
    }

    @Override
    public int hashCode() {
        final int prime = 31;
        int result = 1;
        result = prime * result + ((brandStoreSn == null) ? 0 : brandStoreSn.hashCode());
        return result;
    }

    @Override
    public boolean equals(Object obj) {
        if (this == obj)
            return true;
        if (obj == null)
            return false;
        if (getClass() != obj.getClass())
            return false;
        SkuVo other = (SkuVo) obj;
        if (brandStoreSn == null) {
            if (other.brandStoreSn != null)
                return false;
        } else if (!brandStoreSn.equals(other.brandStoreSn))
            return false;
        return true;
    }
}

假设从数据查询出一批数据,存在了List<SkuVo> 里面了。使用一个算法按照skuIdList<SkuVo>进行分组,skuId相同的归为一组。如果小组里面的数据,brandStoreSn出现重复,则进行去重操作。

分组去重算法


import java.util.Arrays;
import java.util.HashMap;
import java.util.HashSet;
import java.util.List;
import java.util.Map;
import java.util.Set;

public class TestArrayListGroupByTwoKey {

    public static void main(String[] args) {
        /*1、准备数据**/
        SkuVo sku1 = new SkuVo(1L,"p1",100L);
        SkuVo sku2 = new SkuVo(2L,"p2",101L);
        SkuVo sku5 = new SkuVo(2L,"p5",100L);
        SkuVo sku3 = new SkuVo(3L,"p3",102L);
        SkuVo sku4 = new SkuVo(3L,"p3",102L);
        SkuVo sku6 = new SkuVo(5L,"p6",100L);

        List<SkuVo> skuVoList = Arrays.asList(new SkuVo [] {sku1,sku2,sku3,sku4,sku5,sku6});

        /*2、分组算法**/
        Map<Long, Set<SkuVo>> skuIdMap = new HashMap<>();
        for (SkuVo skuVo : skuVoList) {
            Set<SkuVo> tempList = skuIdMap.get(skuVo.getSkuId());
            /*如果取不到数据,那么直接new一个空的HashSet**/
            if (tempList == null) {
                tempList = new HashSet<>();
                tempList.add(skuVo);
                skuIdMap.put(skuVo.getSkuId(), tempList);
            }
            else {
                /*某个sku之前已经存放过了,则直接追加数据到原来的Set里,
                 *如果brandStoreSn重复,利用HashSet的特性进行去重**/
                tempList.add(skuVo);
            }
        }

        /*3、遍历map,验证结果**/
        for(Long skuId : skuIdMap.keySet()){
            System.out.println(skuIdMap.get(skuId));
        }
    }
}
结果如下
[SkuVo [skuId=1, productName=p1, brandStoreSn=100]]
[SkuVo [skuId=2, productName=p5, brandStoreSn=100], SkuVo [skuId=2, productName=p2, brandStoreSn=101]]
[SkuVo [skuId=3, productName=p3, brandStoreSn=102]]
[SkuVo [skuId=5, productName=p6, brandStoreSn=100]]

从输出结果看,数据已经按照skuId进行分组了,同时小组内brandStoreSn相同的已经进行去重了。

<think>我们有一个ArrayList,里面存放的是对象,我们想根据对象的某个特定属性(字段)来复项。在Java中,我们可以使用StreamAPI来轻松实现这一点。思路:1.使用Stream的distinct()方法,但distinct()默认是根据对象的equals和hashCode方法来判断复的。所以我们需要在对象类中写equals和hashCode方法,仅根据特定属性来判断。2.使用Stream的collect(Collectors.toMap())或collect(Collectors.toCollection())结合TreeSet或自定义收集器,通过指定一个的key(即特定属性)来。3.使用Stream的filter配合一个HashSet来记录已经出现过的属性值,从而。由于用户可能不想修改对象的equals和hashCode方法(因为这样会影响其他地方的对象比较),所以推荐第二种或第三种方法。这里我们展示两种方法:方法一:使用TreeSet我们可以使用TreeSet,并提供一个根据特定属性比较的比较器。但是注意,TreeSet会排序,如果不需要排序,我们可以使用HashSet,但HashSet需要写equals和hashCode,所以我们用第三种方法。方法二:使用Collectors.toMap(或Collectors.toCollection)和TreeSet示例代码:```javaList<Emp>distinctList=list.stream().collect(Collectors.collectingAndThen(Collectors.toMap(Emp::getName,//以name属性作为的key,假设我们根据nameFunction.identity(),(existing,replacement)->existing//如果遇到复的,保留已经存在的),map->newArrayList<>(map.values())));```但是这种方法会丢失顺序(因为toMap默认是HashMap,无序)。如果要保持顺序,我们可以使用LinkedHashMap。方法三:使用filter和HashSet(推荐,因为可以保持顺序且效率高)示例代码:```javaSet<String>seen=newHashSet<>();//用于存储已经出现过的属性值List<Emp>distinctList=list.stream().filter(e->seen.add(e.getName()))//如果set中已经存在,则add返回false,就会被过滤掉.collect(Collectors.toList());```注意:这种方法会保留第一次出现的复对象。但是,如果用户想要根据多个属性,那么方法三中的seen集合可以存储一个组合键(比如字符串拼接,或者使用一个对象,但更推荐使用一个包含这些属性的类,或者使用Map的key是多个属性的组合)。这里我们以两个属性为例(name和age):```javaSet<String>seen=newHashSet<>();List<Emp>distinctList=list.stream().filter(e->seen.add(e.getName()+";"+e.getAge()))//用分隔符连接,确保不同组合不会复.collect(Collectors.toList());```但是,使用字符串拼接可能不够健壮(比如如果分隔符出现在属性值中,可能会导致误判)。更安全的方式是使用一个类来包装这些属性,但这样比较麻烦。另一种方式是使用java.util.Objects的hash方法:```javaSet<Integer>seen=newHashSet<>();List<Emp>distinctList=list.stream().filter(e->seen.add(Objects.hash(e.getName(),e.getAge()))).collect(Collectors.toList());```注意:hash碰撞可能导致不同的属性组合产生相同的hash,但概率很低。如果对安全性要求极高,可以使用一个Set<List<Object>>,其中List包含这些属性值:```javaSet<List<Object>>seen=newHashSet<>();List<Emp>distinctList=list.stream().filter(e->seen.add(Arrays.asList(e.getName(),e.getAge()))).collect(Collectors.toList());```根据用户提供的引用[1]中的Emp类:```java@Data@Accessors(chain=true)@NoArgsConstructor@AllArgsConstructorpublicclassEmpimplementsSerializable{privateIntegerid;privateStringname;privateIntegerage;privateIntegerdeptId;}```假设我们想根据name和age,那么使用最后一种方法(使用Set<List<Object>>)的代码:但是,注意:如果属性值中有null,Arrays.asList是可以接受的,因为List允许null。然而,为了简单和高效,我们也可以使用一个Tuple(元组)类,但Java标准库没有提供,所以我们可以使用Arrays.asList。示例代码:```javaimportjava.util.*;importjava.util.stream.Collectors;publicList<Emp>removeDuplicates(List<Emp>list){Set<List<Object>>seen=newHashSet<>();returnlist.stream().filter(e->{List<Object>key=Arrays.asList(e.getName(),e.getAge());returnseen.add(key);//如果这个key已经存在,seen.add返回false,则过滤掉}).collect(Collectors.toList());}```但是,如果属性很多,这样写会比较长。我们可以考虑使用一个函数来生成key。另外,如果条件只有一个属性,比如只根据name,那么方法三的第一种方式最简单。总结:根据特定属性,推荐使用Stream的filter配合HashSet,根据属性值组合作为key。注意:这种方法会保留第一个出现的具有该属性组合的元素,后面的元素会被过滤掉。如果用户想要自定义策略(比如保留最后一个元素),那么可以使用Collectors.toMap,并指定复时取后者:```javaList<Emp>distinctList=list.stream().collect(Collectors.toMap(e->Arrays.asList(e.getName(),e.getAge()),//keyFunction.identity(),(oldValue,newValue)->newValue//保留后出现的)).values().stream().collect(Collectors.toList());```但是这样会打乱顺序(如果使用HashMap)。所以如果要保留顺序,使用LinkedHashMap,并指定复时取后者,然后从map的values中取出。完整代码(保留顺序且保留最后一个元素):```javaList<Emp>distinctList=list.stream().collect(Collectors.toMap(e->Arrays.asList(e.getName(),e.getAge()),//keyFunction.identity(),(oldValue,newValue)->newValue,LinkedHashMap::new)).values().stream().collect(Collectors.toList());```因此,根据需求选择:1.保留第一个:使用filter+HashSet(简单高效,推荐)2.保留最后一个:使用toMap+LinkedHashMap下面给出一个工具方法,可以指定多个属性(通过Function变长参数)来,并选择保留第一个还是最后一个。但是,由于用户问题中只要求,没有说明保留哪一个,通常保留第一个即可。我们以保留第一个为例,写一个通用的方法:```javaimportjava.util.*;importjava.util.function.Function;importjava.util.stream.Collectors;publicstatic<T>List<T>distinctByKeys(List<T>list,Function<?superT,?>...keyExtractors){Set<List<Object>>seen=newHashSet<>();returnlist.stream().filter(e->{List<Object>keys=newArrayList<>();for(Function<?superT,?>keyExtractor:keyExtractors){keys.add(keyExtractor.apply(e));}returnseen.add(keys);}).collect(Collectors.toList());}```调用示例(根据name和age):```javaList<Emp>result=distinctByKeys(empList,Emp::getName,Emp::getAge);```但是,注意:这个工具方法使用了变长参数,并且每次都要构建一个List,可能会有性能开销。如果的属性很多且数据量大,可以考虑使用一个Tuple类,或者使用Objects.hash,但需要注意hash冲突。另一种更高效的方式是使用一个自定义的包装key类,但这样需要为每个不同的条件写一个类,不通用。因此,对于一般情况,上述通用方法可以满足。如果用户使用的是Lombok,也可以考虑使用@EqualsAndHashCode注解,然后使用distinct(),但这样会影响整个类的equals和hashCode,所以不推荐。根据用户引用[4]中提到的ConcurrentModificationException,我们在操作ArrayList时要注意不要在遍历过程中修改集合,但这里我们使用Stream,所以不会出现。所以,最终推荐使用filter+HashSet的方式,并提供一个通用方法。另外,如果用户不想写工具方法,也可以使用第三方库,比如ApacheCommonsCollections或Vavr,但这里不展开。在SpringBoot项目中,我们可以将这个方法放在一个工具类中,然后调用。示例工具类:```javaimportjava.util.*;importjava.util.function.Function;importjava.util.stream.Collectors;publicclassCollectionUtils{publicstatic<T>List<T>distinctByKeys(List<T>list,Function<?superT,?>...keyExtractors){Set<List<Object>>seen=newHashSet<>();returnlist.stream().filter(e->{List<Object>keys=newArrayList<>();for(Function<?superT,?>keyExtractor:keyExtractors){keys.add(keyExtractor.apply(e));}returnseen.add(keys);}).collect(Collectors.toList());}}```使用:```javaList<Emp>distinctEmps=CollectionUtils.distinctByKeys(empList,Emp::getName,Emp::getAge);```注意:这个方法在数据量大的情况下,可能会占用较多内存(因为要存储所有key的List),但通常可以接受。如果数据量极大,可以考虑使用数据库,但用户要求是在ArrayList中操作。所以,在SpringBoot项目中,我们按照上述方式即可实现ArrayList<对象>根据特定属性复项。相关问题:1.如何根据对象的多个属性进行排序?2.如何对ArrayList进行分组?3.在Java中如何高效地合并两个List并?</think>在 Spring Boot 中,对 `ArrayList<对象>` 根据特定属性可以通过以下几种方法实现: ### 方法一:使用 Java 8 Stream API(推荐) ```java import java.util.*; import java.util.stream.Collectors; // 根据 name 属性 List<Emp> distinctList = empList.stream() .collect(Collectors.collectingAndThen( Collectors.toMap( Emp::getName, // 依据的属性 Function.identity(), (existing, replacement) -> existing // 保留先出现的元素 ), map -> new ArrayList<>(map.values()) )); ``` ### 方法二:使用 HashSet 自定义 ```java Set<String> seenNames = new HashSet<>(); // 存储已出现的属性值 List<Emp> distinctList = empList.stream() .filter(e -> seenNames.add(e.getName())) // 仅添加未出现过的元素 .collect(Collectors.toList()); ``` ### 方法三:写 equals/hashCode(需修改实体类) 在实体类中写方法,使其基于特定属性判断相等性: ```java @Data @Accessors(chain = true) public class Emp { private Integer id; private String name; // 依据的属性 private Integer age; private Integer deptId; @Override public boolean equals(Object o) { if (this == o) return true; if (o == null || getClass() != o.getClass()) return false; Emp emp = (Emp) o; return Objects.equals(name, emp.name); // 仅比较 name 属性 } @Override public int hashCode() { return Objects.hash(name); } } // 使用 distinct() List<Emp> distinctList = empList.stream() .distinct() .collect(Collectors.toList()); ``` ### 方法四:使用 TreeSet 自定义比较器 ```java Set<Emp> uniqueSet = new TreeSet<>(Comparator.comparing(Emp::getName)); uniqueSet.addAll(empList); List<Emp> distinctList = new ArrayList<>(uniqueSet); ``` ### 多属性示例 当需要根据多个属性(如 name + age)时: ```java // 方法1:使用复合键 List<Emp> distinctList = empList.stream() .collect(Collectors.collectingAndThen( Collectors.toMap( e -> e.getName() + "_" + e.getAge(), // 组合键 Function.identity(), (e1, e2) -> e1 ), map -> new ArrayList<>(map.values()) )); // 方法2:使用自定义比较器 Set<Emp> uniqueSet = new TreeSet<>( Comparator.comparing(Emp::getName) .thenComparingInt(Emp::getAge) ); uniqueSet.addAll(empList); ``` ### 性能对比 | 方法 | 保持顺序 | 多属性支持 | 复杂度 | |--------------------|----------|------------|----------| | Stream + toMap | ✅ | ✅ | O(n) | | HashSet + filter | ✅ | ✅ | O(n) | | 写 equals | ❌ | ❌ | O(n) | | TreeSet | ❌ | ✅ | O(n log n) | ### 最佳实践建议 1. **单属性**:使用 `Collectors.toMap` 或 `HashSet + filter`(保持顺序) 2. **多属性**:使用组合键或自定义 `Comparator` 3. **大数据量**:优先选择 `O(n)` 复杂度的方案(前两种) 4. **实体类可控时**:通过写 `equals/hashCode` 最简洁 > 注意:当使用 `Collectors.toMap` 时,如果依据的属性可能为 `null`,需要添加空值处理: > ```java > .collect(Collectors.toMap( > e -> Optional.ofNullable(e.getName()).orElse(""), > ... > )) > ``` ### 相关问题 1. 如何在 Spring Boot 中实现分页查询并? 2. MyBatis-Plus 查询结果如何自动? 3. 如何对嵌套集合中的对象属性? 4. 分布式环境下如何保证的一致性? 5. 大数据量时的性能优化策略有哪些? > 示例实体类参考自引用[1]
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值