Roaring Bitmap 原理及实践

本文介绍了RoaringBitmap库,一种针对整数集合的高效压缩数据结构,通过集合运算优化和空间管理减少存储需求,尤其适合大数据场景。示例展示了如何使用RoaringBitmap进行交并差操作,并讨论了与传统Set的对比及其在存储节省上的优势。

Roaring Bitmap 介绍

存储整数集(类似于存储整数的 Set),并支持整数集的集合运算(交并差等)。之所以在一些场景下使用 Roaring Bitmap,而不是 Set,是因为其节省存储空间以及集合运算效率更优。

使用示例

<dependencies>
    <dependency>
        <groupId>org.roaringbitmap</groupId>
        <artifactId>RoaringBitmap</artifactId>
        <version>0.9.0</version>
    </dependency>
</dependencies>
package roaringbitmap;

import org.roaringbitmap.RoaringBitmap;
import org.roaringbitmap.longlong.Roaring64Bitmap;

import java.util.Iterator;

public class Test {
   
   
    public static void main(String[] args) {
   
   
        RoaringBitmap r1 = RoaringBitmap.bitmapOf(15, 0, Integer.MIN_VALUE, Integer.MAX_VALUE, -1, -8);
        print(r1, "r1");

        RoaringBitmap r2 = new RoaringBitmap();
        r2.add(-1);
        r2.add(0);
        r2.add(1);
        print(r2, "r2");

        RoaringBitmap intersect = RoaringBitmap.and(r1, r2);
        print(intersect, "r1-and-r2");

        System.out.println("=================");

        Roaring64Bitmap r64 = Roaring64Bitmap.bitmapOf(1, 2, Long.MAX_VALUE, Long.MIN_VALUE, -1, -3);
        System.out.println("RBM[r64] cardinality: " + r64.getLongCardinality());
        Iterator<Long> iterator = r64.iterator();
        while (iterator.hasNext()) {
   
   
            System.out.print(iterator.next() + "\t");
        }
        System.out.println();

    }

    public static void print(RoaringBitmap r, String name) {
   
   
        System.out.println("RBM[" + name + "] cardinality: " + r.getLongCardinality());
        for(int i: r) {
   
   
            System.out.print(i + "\t");
        }
        System.out.println();
    }


}
/*
RBM[r1] cardinality: 6 
0        15        2147483647        -2147483648        -8        -1         
RBM[r2] cardinality: 3 
0        1        -1         
RBM[r1-and-r2] cardinality: 2 
0        -1         
================= 
RBM[r64] cardinality: 6 
1        2        9223372036854775807        -9223372036854775808        -3        -1    
*/

Bitmap/Bitset

问:1 亿个设备 id(imeimd5, 长度 32 字符串, 512 bit)需要多少存储空间?
答:1 亿 * 64 Byte = 64 亿 Byte = 6.4 G

但是,如果一个设备 id 使用 1 bit 存储,需要存储空间是 6.4G / 512 = 12.5 M

set = {1, 2, 15}
在这里插入图片描述

package roaringbitmap;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值