CDP技术系列（一）：使用bitmap存储数十亿用户ID的标签或群体

原创

于 2024-01-24 09:33:31 发布 · 1.3k 阅读

·

23

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#java #数据库 #前端

一、背景介绍

CDP系统中目前存在大量由用户ID集合组成的标签和群体，截止当前已有几千+标签，群体2W+。

大量的标签都是亿级别数据量以上，例如性别、职业、学历等均，甚至有群体中的ID数量达到了数十亿+。

并且随着用户ID池的不断增加，标签和群体本身包含的ID数量也随之增加，如何存储如此多的数据，标签与群体之间的组合计算，是我们面临的挑战。

二、问题描述

如此大量的用户ID集合，虽然标签和群体的ID集合本质类似，但是都需要存储亿级别的ID数据，这就对存储结构提出较高的要求。

这里拿群体举例，如果某群体包含1000W个用户ID，通过文本文件存储，大概需要150M，40亿的群体就达到了惊人的150*40*10=60000M，大约60G，而我们的群体数量已经达到了几W+，再加上标签数据，所需要的存储空间将不可接受。

并且，数据的存储只是其中一个方面，后续针对标签和群体的组合计算，创建出更细粒度的ID包也是一个挑战。

三、解决方案

面对以上问题，CDP采用了Bitmap的思路来解决，不但解决了存储空间问题，而且Bitmap本身的交并差运算，能够很好的支持用户对不同标签和群体的组合计算，详细方案如下。

1）Bitmap简介

为了便于理解，首先介绍一下什么是bitmap。

它的基本思想是用bit位来唯一标记某个数值，这样可以用它来记录一个数值没有重复的数据元组。并且每一条数据只使用一个bit来标识，能够大大的节省存储空间。

比如，我想存储一个数值数组[2,4,6,8]。

Java中如果用byte类型来存储，不考虑其他开销，需要4个字节的空间，一个字节8位，也就是4*8=32bit。

倘若使用更大的数据类型，存储空间也会相应增大，如使用Integer（4字节），则需要4*4*8=128bit。

而如果采用bitmap的思想，只需要构建一个8bit空间，也就是一个字节的空间

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。