40亿QQ号，如何去重？

最新推荐文章于 2025-03-11 11:28:52 发布

BLACK594

最新推荐文章于 2025-03-11 11:28:52 发布

阅读量540

点赞数 21

分类专栏： Java 文章标签：哈希算法算法

本文链接：https://blog.youkuaiyun.com/qq_57492914/article/details/145408200

版权

Java 专栏收录该内容

6 篇文章

订阅专栏

前言

首先我们来看看如果要存储40亿QQ号需要多少内存？我们使用无符号整数存储，一个整数需要4个字节，那么40亿需要4*4000000000/1024/1024/1024≈15G，在业务中我们往往需要更多的空间。而且在Java中并不存在无符号整形，只有几个操作无符号的静态方法。

1GB = 1024MB，1MB = 1024KB，1KB = 1024B, 1B = 8b

很显然这种存储是不太优雅的，对于这种大数据量的去重，我们可以使用位图Bitmap。

Bitmap

Bitmap，位图，首先看它的名字，比特map，首先我们听到map，一般都有去重的功能，bitmap听名字就像使用bit存储的map。确实，位图是使用bit数组表示的，它只存储0或者1，因此我们可以把全部的QQ号放到位图中，当index位置为1时表示已经存在。
在这里插入图片描述

假如我们要判断2924357571是否存在，那么我们只需要看index为2924357571的值是否为1，如果为1则表示已经存在。

位图使用1个比特表示一个数是否存在，那么使用无符号整数表示QQ号，4字节2^32-1是4294967295，内存需要4294967295/8/1024/1024≈512MB。

使用Java编程时，我们使用位图一般是通过的redis，在redis中位图常用的是以下三个命令：

命令	功能
SETBIT key offset value	设置指定offset位置的值，value只能是0或1
GETBIT key offset	获取指定offset位置的值
BITCOUNT key start end	获取start到end之间value为1的数量

演示

在这里插入图片描述

其他作用

大数据量去重，Bitmap其极致的空间用在大数据量去重非常合适的，除了QQ号去重，我们还可以用在比如订单号去重；爬取网站时URL去重，爬过的就不爬取了。
数据统计，比如在线人员统计，将在线人员id为偏移值，为1表示在线；视频统计，将全部视频的id为偏移存储到Bitmap中。
布隆过滤器（BloomFilter），布隆过滤器的基础就是使用的位图，只不过布隆过滤器使用了多个哈希函数处理，只有当全部的哈希都为1，才表示这个值存在。

布隆过滤器

布隆过滤器一般会使用多个哈希函数，计算出对应的hash对应多个位图下标值，如果都为1，表示这个值存在。
在这里插入图片描述

例如hutool工具中布隆过滤器的实现类BitMapBloomFilter默认就提供了5个哈希函数。

public BitMapBloomFilter(int m) {
    int mNum =NumberUtil.div(String.valueOf(m), String.valueOf(5)).intValue();
    long size = mNum * 1024 * 1024 * 8;
    
    filters = new BloomFilter[]{
       new DefaultFilter(size),
       new ELFFilter(size),
       new JSFilter(size),
       new PJWFilter(size),
       new SDBMFilter(size)
    };
}