List数据对比筛选,如何才能达到最佳效率?

本文探讨了在实际开发中如何高效地比较两个List,并筛选出不同元素的方法,包括双重循环、使用List的retainAll方法以及利用HashMap进行优化。通过分析不同方法的时间复杂度,最终提出了一种性能更为优越的解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    在实际的开发中,经常会晕倒这样的问题,有两个List的数据,需要对这两个List的数据进行对比,然后筛选出需要的对象。 

    例如:财务中的对账,数据源一个是银行日记账(aList),一个是银行对帐单(bList),业务操作就是把两个List里面金额相同的记录筛选掉,剩下金额不相等的。 

在实际开发中我目前知道有两个方式(假设两个List各有1000条数据): 

1、最简单的就是用双重循环进行比较,虽然简单,但是如果两个List的数据量都很大,那么运行时间将成数量级增长。循环次数为1000*1000 

方法1:遍历两个集合:

package com.czp.test;import java.util.ArrayList;import java.util.List;public class TestList {    public static void main(String[] args) {
        List<String> list1 = new ArrayList<String>();
        List<String> list2 = new ArrayList<String>();        for (int i = 0; i < 10000; i++) {
            list1.add("test"+i);
            list2.add("test"+i*2);
        }
        getDiffrent(list1,list2);        //输出:total times 2566454675    }    /**
     * 获取两个List的不同元素
     * @param list1
     * @param list2
     * @return
     */
    private static List<String> getDiffrent(List<String> list1, List<String> list2) {        long st = System.nanoTime();
        List<String> diff = new ArrayList<String>();        for(String str:list1)
        {            if(!list2.contains(str))
            {
                diff.add(str);
            }
        }
        System.out.println("total times "+(System.nanoTime()-st));        return diff;
    }
}

千万不要采用这种方法,总共要循环的次数是两个List的size相乘的积,从输出看耗时也是比较长的,那么我们有没有其他的方法呢?当然有.

方法2:采用List提供的retainAll()方法:

package com.czp.test;import java.util.ArrayList;import java.util.List;public class TestList {    public static void main(String[] args) {
        List<String> list1 = new ArrayList<String>();
        List<String> list2 = new ArrayList<String>();        for (int i = 0; i < 10000; i++) {
            list1.add("test"+i);
            list2.add("test"+i*2);
        }
        getDiffrent(list1,list2);        //输出:total times 2566454675        getDiffrent2(list1,list2);        //输出:getDiffrent2 total times 2787800964    }    
    /**
     * 获取连个List的不同元素
     * @param list1
     * @param list2
     * @return
     */
    private static List<String> getDiffrent2(List<String> list1, List<String> list2) {        long st = System.nanoTime();
        list1.retainAll(list2);
        System.out.println("getDiffrent2 total times "+(System.nanoTime()-st));        return list1;
    }    /**
     * 获取两个List的不同元素
     * @param list1
     * @param list2
     * @return
     */
    private static List<String> getDiffrent(List<String> list1, List<String> list2) {        long st = System.nanoTime();
        List<String> diff = new ArrayList<String>();        for(String str:list1)
        {            if(!list2.contains(str))
            {
                diff.add(str);
            }
        }
        System.out.println("getDiffrent total times "+(System.nanoTime()-st));        return diff;
    }
}

很遗憾,这种方式虽然只要几行代码就搞定,但是这个却更耗时,查看retainAll()的源码:

 public boolean retainAll(Collection<?> c) {    boolean modified = false;
    Iterator<E> e = iterator();    while (e.hasNext()) {        if (!c.contains(e.next())) {
        e.remove();
        modified = true;
        }
    }    return modified;
    }

无需解释这个耗时是必然的,那么我们还有没有更好的办法呢?仔细分析以上两个方法中我都做了mXn次循环,其实完全没有必要循环这么多次,我们的需求是找出两个List中的不同元素,那么我可以这样考虑:用一个map存放lsit的所有元素,其中的key为lsit1的各个元素,value为该元素出现的次数,接着把list2的所有元素也放到map里,如果已经存在则value加1,最后我们只要取出map里value为1的元素即可,这样我们只需循环m+n次,大大减少了循环的次数。

package com.czp.test;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;public class TestList {    public static void main(String[] args) {
        List<String> list1 = new ArrayList<String>();
        List<String> list2 = new ArrayList<String>();        for (int i = 0; i < 10000; i++) {
            list1.add("test"+i);
            list2.add("test"+i*2);
        }
        getDiffrent(list1,list2);        //输出:total times 2566454675        getDiffrent2(list1,list2);        //输出:getDiffrent2 total times 2787800964        getDiffrent3(list1,list2);        //输出:getDiffrent3 total times 61763995    }    /**
     * 获取两个List的不同元素
     * @param list1
     * @param list2
     * @return
     */
    private static List<String> getDiffrent3(List<String> list1, List<String> list2) {        long st = System.nanoTime();
        Map<String,Integer> map = new HashMap<String,Integer>(list1.size()+list2.size());
        List<String> diff = new ArrayList<String>();        for (String string : list1) {
            map.put(string, 1);
        }        for (String string : list2) {
            Integer cc = map.get(string);            if(cc!=null)
            {
                map.put(string, ++cc);                continue;
            }
            map.put(string, 1);
        }        for(Map.Entry<String, Integer> entry:map.entrySet())
        {            if(entry.getValue()==1)
            {
                diff.add(entry.getKey());
            }
        }
        System.out.println("getDiffrent3 total times "+(System.nanoTime()-st));        return list1;
    }    /**
     * 获取两个List的不同元素
     * @param list1
     * @param list2
     * @return
     */
    private static List<String> getDiffrent2(List<String> list1, List<String> list2) {        long st = System.nanoTime();
        list1.retainAll(list2);
        System.out.println("getDiffrent2 total times "+(System.nanoTime()-st));        return list1;
    }    /**
     * 获取两个List的不同元素
     * @param list1
     * @param list2
     * @return
     */
    private static List<String> getDiffrent(List<String> list1, List<String> list2) {        long st = System.nanoTime();
        List<String> diff = new ArrayList<String>();        for(String str:list1)
        {            if(!list2.contains(str))
            {
                diff.add(str);
            }
        }
        System.out.println("getDiffrent total times "+(System.nanoTime()-st));        return diff;
    }
}


package com.czp.test;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;public class TestList {    public static void main(String[] args) {
        List<String> list1 = new ArrayList<String>();
        List<String> list2 = new ArrayList<String>();        for (int i = 0; i < 10000; i++) {
            list1.add("test"+i);
            list2.add("test"+i*2);
        }
        getDiffrent(list1,list2);
        getDiffrent2(list1,list2);
        getDiffrent3(list1,list2);
        getDiffrent4(list1,list2);//        getDiffrent total times 2789492240//        getDiffrent2 total times 3324502695//        getDiffrent3 total times 24710682//        getDiffrent4 total times 15627685    }    /**
     * 获取两个List的不同元素
     * @param list1
     * @param list2
     * @return
     */
    private static List<String> getDiffrent4(List<String> list1, List<String> list2) {        long st = System.nanoTime();
        Map<String,Integer> map = new HashMap<String,Integer>(list1.size()+list2.size());
        List<String> diff = new ArrayList<String>();
        List<String> maxList = list1;
        List<String> minList = list2;        if(list2.size()>list1.size())
        {
            maxList = list2;
            minList = list1;
        }        for (String string : maxList) {
            map.put(string, 1);
        }        for (String string : minList) {
            Integer cc = map.get(string);            if(cc!=null)
            {
                map.put(string, ++cc);                continue;
            }
            map.put(string, 1);
        }        for(Map.Entry<String, Integer> entry:map.entrySet())
        {            if(entry.getValue()==1)
            {
                diff.add(entry.getKey());
            }
        }
        System.out.println("getDiffrent4 total times "+(System.nanoTime()-st));        return diff;
        
    }    /**
     * 获取两个List的不同元素
     * @param list1
     * @param list2
     * @return
     */
    private static List<String> getDiffrent3(List<String> list1, List<String> list2) {        long st = System.nanoTime();
        Map<String,Integer> map = new HashMap<String,Integer>(list1.size()+list2.size());
        List<String> diff = new ArrayList<String>();        for (String string : list1) {
            map.put(string, 1);
        }        for (String string : list2) {
            Integer cc = map.get(string);            if(cc!=null)
            {
                map.put(string, ++cc);                continue;
            }
            map.put(string, 1);
        }        for(Map.Entry<String, Integer> entry:map.entrySet())
        {            if(entry.getValue()==1)
            {
                diff.add(entry.getKey());
            }
        }
        System.out.println("getDiffrent3 total times "+(System.nanoTime()-st));        return diff;
    }    /**
     * 获取连个List的不同元素
     * @param list1
     * @param list2
     * @return
     */
    private static List<String> getDiffrent2(List<String> list1, List<String> list2) {        long st = System.nanoTime();
        list1.retainAll(list2);
        System.out.println("getDiffrent2 total times "+(System.nanoTime()-st));        return list1;
    }    /**
     * 获取两个List的不同元素
     * @param list1
     * @param list2
     * @return
     */
    private static List<String> getDiffrent(List<String> list1, List<String> list2) {        long st = System.nanoTime();
        List<String> diff = new ArrayList<String>();        for(String str:list1)
        {            if(!list2.contains(str))
            {
                diff.add(str);
            }
        }
        System.out.println("getDiffrent total times "+(System.nanoTime()-st));        return diff;
    }
}

这里对连个list的大小进行了判断,小的在最后添加,这样会减少循环里的判断,性能又有了一定的提升,正如一位朋友所说,编程是无止境的,只要你认真去思考了,总会找到更好的方法!

    针对List有重复元素的问题,做以下修正,首先明确一点,两个List不管有多少个重复,只要重复的元素在两个List都能找到,则不应该包含在返回值里面,所以在做第二次循环时,这样判断:如果当前元素在map中找不到,则肯定需要添加到返回值中,如果能找到则value++,遍历完之后diff里面已经包含了只在list2里而没在list2里的元素,剩下的工作就是找到list1里有list2里没有的元素,遍历map取value为1的即可:

package com.czp.test;

import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;public class TestList {    public static void main(String[] args) {
        List<String> list1 = new ArrayList<String>();
        List<String> list2 = new ArrayList<String>();        for (int i = 0; i < 10000; i++) {
            list1.add("test"+i);
            list2.add("test"+i*2);
        }
        getDiffrent(list1,list2);
        getDiffrent3(list1,list2);
        getDiffrent5(list1,list2);
        getDiffrent4(list1,list2);
        getDiffrent2(list1,list2);//        getDiffrent3 total times 32271699//        getDiffrent5 total times 12239545//        getDiffrent4 total times 16786491//        getDiffrent2 total times 2438731459        
    }    /**
     * 获取两个List的不同元素
     * @param list1
     * @param list2
     * @return     */
    private static List<String> getDiffrent5(List<String> list1, List<String> list2) {        long st = System.nanoTime();
         List<String> diff = new ArrayList<String>();
         List<String> maxList = list1;
         List<String> minList = list2;         if(list2.size()>list1.size())
         {
             maxList = list2;
             minList = list1;
         }
         Map<String,Integer> map = new HashMap<String,Integer>(maxList.size());         for (String string : maxList) {
             map.put(string, 1);
         }         for (String string : minList) {             if(map.get(string)!=null)
             {
                 map.put(string, 2);                 continue;
             }
             diff.add(string);
         }         for(Map.Entry<String, Integer> entry:map.entrySet())
         {             if(entry.getValue()==1)
             {
                 diff.add(entry.getKey());
             }
         }
        System.out.println("getDiffrent5 total times "+(System.nanoTime()-st));        return diff;
        
    }    /**
     * 获取两个List的不同元素
     * @param list1
     * @param list2
     * @return     */
    private static List<String> getDiffrent4(List<String> list1, List<String> list2) {        long st = System.nanoTime();
        Map<String,Integer> map = new HashMap<String,Integer>(list1.size()+list2.size());
        List<String> diff = new ArrayList<String>();
        List<String> maxList = list1;
        List<String> minList = list2;        if(list2.size()>list1.size())
        {
            maxList = list2;
            minList = list1;
        }        for (String string : maxList) {
            map.put(string, 1);
        }        for (String string : minList) {
            Integer cc = map.get(string);            if(cc!=null)
            {
                map.put(string, ++cc);                continue;
            }
            map.put(string, 1);
        }        for(Map.Entry<String, Integer> entry:map.entrySet())
        {            if(entry.getValue()==1)
            {
                diff.add(entry.getKey());
            }
        }
        System.out.println("getDiffrent4 total times "+(System.nanoTime()-st));        return diff;
        
    }    /**
     * 获取两个List的不同元素
     * @param list1
     * @param list2
     * @return     */
    private static List<String> getDiffrent3(List<String> list1, List<String> list2) {        long st = System.nanoTime();
        Map<String,Integer> map = new HashMap<String,Integer>(list1.size()+list2.size());
        List<String> diff = new ArrayList<String>();        for (String string : list1) {
            map.put(string, 1);
        }        for (String string : list2) {
            Integer cc = map.get(string);            if(cc!=null)
            {
                map.put(string, ++cc);                continue;
            }
            map.put(string, 1);
        }        for(Map.Entry<String, Integer> entry:map.entrySet())
        {            if(entry.getValue()==1)
            {
                diff.add(entry.getKey());
            }
        }
        System.out.println("getDiffrent3 total times "+(System.nanoTime()-st));        return diff;
    }    /**
     * 获取连个List的不同元素
     * @param list1
     * @param list2
     * @return     */
    private static List<String> getDiffrent2(List<String> list1, List<String> list2) {        long st = System.nanoTime();
        list1.retainAll(list2);
        System.out.println("getDiffrent2 total times "+(System.nanoTime()-st));        return list1;
    }    /**
     * 获取两个List的不同元素
     * @param list1
     * @param list2
     * @return     */
    private static List<String> getDiffrent(List<String> list1, List<String> list2) {        long st = System.nanoTime();
        List<String> diff = new ArrayList<String>();        for(String str:list1)
        {            if(!list2.contains(str))
            {
                diff.add(str);
            }
        }
        System.out.println("getDiffrent total times "+(System.nanoTime()-st));        return diff;
    }
}


补充一下,其实可以先将list转换为set,这样就达到去重的目的,然后把set中的数据再转存到map中。也就免除了list1或list2中本身就有重复数据的情况。

转载于:https://my.oschina.net/u/1474079/blog/281196

### 多模态大模型的数据对齐方法 在构建多模态大模型的过程中,数据对齐是确保不同模式间信息一致性的关键步骤之一。对于来自多种感官输入(如文本、图像、音频等)的数据而言,有效的对齐策略能够极大地促进模型的理解能力和泛化能力。 #### 方法 一种常见的做法是在预处理阶段就完成初步的跨模态特征提取与匹配工作。例如,在视觉-语言任务里可以先利用现成的对象检测算法识别图片里的实体并描述出来作为对应的文字说明;或者反过来根据给定的一段话去检索最相似的照片来建立关联关系[^1]。此外,还有基于对比学习框架下的实例级/细粒度语义空间映射技术被广泛采用,它通过最小化正样本对之间的距离而最大化负样本间的差异从而实现自动化的质量配对[^2]。 #### 挑战 然而,这一过程并非毫无障碍。首先是异构特性带来的难题——不同类型的信息往往具有不同的分布规律以及表达形式上的巨大差别,这就使得找到合适的桥梁变得困难重重。其次是噪声干扰的影响,特别是在网络上抓取未经筛选的真实世界资料时尤为明显,因为其中可能混杂着大量不准确甚至是误导性的内容。再者就是标注成本昂的问题,人工标记海量且复杂的多媒体组合既耗时又费力还不一定能保证质量,因此迫切需要开发更加智能化的解决方案降低依赖程度。 #### 最佳实践 针对上述提到的各项挑战,业界已经摸索出了不少行之有效的方法论: - **引入辅助监督信号**:借助额外的任务指导可以帮助更好地捕捉潜在联系,比如同步进行物体分类的同时也做位置预测; - **设计鲁棒性强的学习机制**:像ALBEF那样采取动量自蒸馏的方式生成可靠的伪标签用于增强训练稳定性,并减少对外部干净样本库的需求; - **探索低成本效率数据采集途径**:考虑使用弱监督甚至无监督手段挖掘隐含价值,或是鼓励社区贡献优质素材形成良性循环生态体系。 ```python def align_multimodal_data(image_features, text_descriptions): """ 对齐图像和文本数据 参数: image_features (list): 图像特征列表 text_descriptions (list): 文本描述列表 返回: aligned_pairs (list of tuples): 已经对齐好的(图像特征, 文本描述)元组列表 """ # 假设这里实现了某种先进的对齐逻辑... aligned_pairs = [] for img_feat, txt_desc in zip(image_features, text_descriptions): alignment_score = calculate_alignment(img_feat, txt_desc) if alignment_score >= threshold: aligned_pairs.append((img_feat, txt_desc)) return aligned_pairs ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值