场景题:如何在1G内存下实现40亿QQ号去重?

目录

在这里插入图片描述

问题背景

当数据量较大时,使用常规方法进行判重是不可行的。例如,使用MySQL数据库或Java中的List.contains()Set.contains()进行判重会导致内存不足或查询速度过慢等问题。

空间占用量预测

正常情况下,如果将40亿QQ号存储在Java中的int类型,每个int占用4字节(byte),则40亿个QQ号占用的空间大小为:

[ 4000000000 \times 4 / 1024 / 1024 / 1024 = 14.9 \text{ GB} ]

因此,我们无法使用常规手段进行40亿QQ号的存储和去重判断。

解决方案

使用位数组(BitMap)实现判重

位数组是指使用位(bit)组成的数组,每个QQ号使用1位(bit)来存储。例如,下标用来标识具体的数字,值为1表示存在,值为0表示不存在。这样,40亿个QQ号占用的位数组空间为:

[ 4000000000 / 1024 / 1024 / 1024 / 8 = 0.465 \text{ GB} ]

不到1G的内存就可以存储40亿个QQ号。查询某个QQ号是否存在,只需查看该QQ号下标对应的位置是否为1.

位数组代码实现

位数组可以使用Java自带的BitSet来实现,具体代码如下:

import java.util.BitSet;

public class BitmapExample {
    public static void main(String[] args) {
        // 创建一个BitSet实例
        BitSet bitmap = new BitSet();

        // 设置第5个位置为1,表示第5个元素存在
        bitmap.set(5);

        // 检查第5个位置是否已设置
        boolean exists = bitmap.get(5);
        System.out.println("Element exists: " + exists);  // 输出: Element exists: true

        // 设置从索引10到20的所有位置为1
        bitmap.set(10, 21);  // 参数是包含起始点和不包含终点的区间

        // 计算bitset中所有值为1的位的数量,相当于计算设置了的元素个数
        int count = bitmap.cardinality();
        System.out.println("Number of set bits: " + count);

        // 清除第5个位置
        bitmap.clear(5);

        // 判断位图是否为空
        boolean isEmpty = bitmap.isEmpty();
        System.out.println("Is the bitset empty? " + isEmpty);
    }
}

使用布隆过滤器实现判重

布隆过滤器是基于位数组实现的,是一种高效的数据结构,主要用于判断一个元素可能是否存在于集合中。其核心特性包括高效的插入和查询操作,但存在一定的假阳性(False Positives)可能性.

布隆过滤器实现原理

根据key值计算出它的存储位置,然后将此位置标识全部标识为1(未存放数据的位置全部为0)。查询时也是查询对应的位置是否全部为1,如果全部为1,则说明数据是可能存在的,否则一定不存在.

布隆过滤器代码实现

布隆过滤器的常见实现有以下几种方式:

使用Google Guava BloomFilter
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;

public class BloomFilterExample {
    public static void main(String[] args) {
        // 创建一个布隆过滤器,设置期望插入的数据量为10000,期望的误判率为0.01
        BloomFilter<String> bloomFilter = 
        BloomFilter.create(Funnels.unencodedCharsFunnel(), 10000, 0.01);
        // 向布隆过滤器中插入数据
        bloomFilter.put("data1");
        bloomFilter.put("data2");
        bloomFilter.put("data3");
        // 查询元素是否存在于布隆过滤器中
        System.out.println(bloomFilter.mightContain("data1")); // true
        System.out.println(bloomFilter.mightContain("data4")); // false
    }
}
使用Hutool框架BitMapBloomFilter
import cn.hutool.core.util.BitMapBloomFilter;

public class HutoolBloomFilterExample {
    public static void main(String[] args) {
        // 初始化
        BitMapBloomFilter filter = new BitMapBloomFilter(10);
        // 存放数据
        filter.add("123");
        filter.add("abc");
        filter.add("ddd");
        // 查找
        System.out.println(filter.contains("abc")); // true
    }
}
使用Redisson框架中的RBloomFilter
import org.redisson.Redisson;
import org.redisson.api.RBloomFilter;
import org.redisson.config.Config;

public class RedissonBloomFilterExample {
    public static void main(String[] args) {
        Config config = new Config();
        config.useSingleServer().setAddress("redis://127.0.0.1:6379");
        RedissonClient redissonClient = Redisson.create(config);
        // 创建布隆过滤器,设置名称和期望容量与误报率
        RBloomFilter<String> bloomFilter = 
        redissonClient.getBloomFilter("myBloomFilter");
        bloomFilter.tryInit(10000, 0.03); // 期望容量 10000,误报率 3%
        // 添加元素到布隆过滤器
        String element1 = "element1";
        bloomFilter.add(element1);
        // 判断元素是否存在
        boolean mightExist = bloomFilter.contains(element1);
        System.out.println("元素 " + element1 + " 可能存在: " + mightExist);
        String element2 = "element2";
        boolean mightExist2 = bloomFilter.contains(element2);
        System.out.println("元素 " + element2 + " 可能存在: " + mightExist2);
    }
}

小结

  • 位数组:没有误判,但空间利用率低.
  • 布隆过滤器:空间利用率高,但存在对已经存在的数据的误判(不存在的数据没有误判).

因此,如果对精准度要求高可以使用位数组;如果对空间要求苛刻,可以考虑布隆过滤器.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值