算法通关村 —— 位运算在查找重复元素中的秒用

博客介绍了在海量数据中查找重复元素的问题。当数据量极大时,常规数据结构和算法思想可能失效,文中给出三种思路:位存储、外部排序、堆。还以用4KB内存寻找重复元素为例,说明可创建位向量来解决内存限制下的查找问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

位运算在查找重复元素中的秒用

在大部分算法中,默认给定的数据量都很小的,例如只有几个或者十几个元素,但是如果将数据量提高到百万甚至十几亿,那处理逻辑就会发生很大差异,这也是算法考查中,经常出现的类问题。

海量数据中,此时普通的数组、链表、Hash、树等等结构有无效了,因为内存空间放不下了。而常规的递归、排序,回溯、贪心和动态规划等思想也无效了,因为执行都会超时,必须另外想办法。这类问题该如何下手呢? 这里介绍三种非常典型的思路:

1. 使用位存储,使用位存储最大的好处是占用的空间是简单存整数的1/8。例如一个40亿的整数数组,如果用整数存储需要16GB左右的空间,而如果使用位存储,就可以用0.5GB的空间,这样
很多问题就能够解决了。

2. 如果文件实在太大,无法在内存中放下,则需要考虑将大文件分成若干小块先处理每个块最后再逐步得到想要的结果,这种方式也叫做外部排序。这样需要遍历全部序列至少两次,是典型的用时间换空间的方法。
3. ,如果在超大数据中找第K大、第K小,K个最大、K个最小,则特别适合使用堆来做。而且将超大数据换成流数据也可以,而且几乎是唯一的方式,口诀就是“查小用大堆,查大用小堆”

1. 用4KB内存寻找重复元素

给定一个数组,包含从1到N的整数,N最大为32000,数组可能还有重复值,且N的取值不定,若只有4KB的内存可用,该如何打印数组中所有重复元素

分析: 者是一道海量数据问题的热身题,如果去掉“只有4KB”的要求,我们可以先创建一个大小为N的数组,然后将这些数据放进来,但是整数最大为32000。如果直接采用数组存,则应该需要32000*4B=128KB的空间,而题目有4KB的内存限制,我们就必须先解决该如何存放的问题。
如果只有4KB的空间,那么只能寻址
8*4*2^10个比特,这个值比32000要大的,因此我们可以创建32000比特的位向量(比特数组),其中一个比特位置就代表一个整数利用这个位向量,就可以遍历访问整个数组。如果发现数组元素是v,那么就将位置为V的设置为1,碰到重复元素,就输出一下。具体实现代码如下:

pubilc class FindDuplicateIn32000 {
    // 将数用位存储到比特数组并查看是否有重复
    public void checkDuplicates (int[] array){
        // 创建大小为32000 < 4KB 的比特数组
        BitSet bs = new BitSet(32000);
        for (int i = 0; i < array.length; i++){
            int num = array[i]; // 要存储的数
            int num0 = num - 1; // 要存储的位置索引
            if (bs.get(num0)) {
                System.out.println(num); // 若该元素已存在则打印
            } else {
                bs.set(num0); // 若不存在则将改为设为1以存储该元素
            }
        }
    }
    // 定义比特数组
    class BitSet {
        int[] bitset;
        public BitSet(int size){
            this.bitset = new int[size >> 5];
        }
        // 判断数组中是否有重复元素
        boolean get(int pos) {
            int wordNumber = (pos >> 5); // 除以32  --- 数大小
            int bitNumber = (pos & 0×1F); // 除于32 --- 存储的位位置
            // 查看对应位位置上是否为1,即存在该元素
            return (bitset[wordNumber] & (1 << bitNumber)) != 0;
        }
        // 将该位设为1
        void set(int pos){
            int wordNumber = (pos >> 5); // 除以32 --- 数大小
            nt bitNumber = (pos & 0×1F); // 除于32 --- 存储的位位置
            // 若不存在则将对应位赋为1
            bitset[wordNumber] |= 1 << bitNumber;
        }
    }
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值