如何基于 BitMap 来作为底层的数据模型

最新推荐文章于 2025-08-23 19:22:32 发布

原创

最新推荐文章于 2025-08-23 19:22:32 发布 · 890 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据 #编程语言 #人工智能 #数据分析

本文介绍了如何基于BitMap数据结构解决大数据分析中的高效查询问题。作者通过实例展示了传统SQL查询在大数据量下的性能瓶颈，然后探讨了数据分层、预聚合等方法，最终提出使用BitMap进行数据存储，以实现灵活的维度和指标组合，提高查询效率。此外，还讨论了多维度交叉问题的解决方案和性能对比，强调了BitMap在存储和计算上的优势。

作者：陈凯
GrowingIO 数据开发工程师，主要负责 SaaS 和 OP 产品数据平台的开发和设计，目前专攻于微服务、数仓建设方向。

GrowingIO 每天需要处理近千亿的用户行为数据，平台的「事件分析」模块是使用比较频繁的功能，简单且强大。在事件分析中，客户可以很灵活地使用多种维度组合去查看某个指标，并且查询的速度也十分可观。

本文抽取 GrowingIO 在事件分析中的通用数据模型，揭晓该功能背后的存储模型和实现原理。

在用户行为的数据分析中，无论是无埋点，还是埋点，对于某一条行为数据的表达形式往往是：「某人」于「某个时间」在「某个维度」下做了「某个动作」「多少次」。

所以在数据统计中，这种表达形式可以拆解成「指标量」和「维度」，指标量可以是用户量、页面浏览量、某个埋点的次数等，维度可以是时间、城市、浏览器、用户属性等。

在海量数据的背景下，如何比较高效地完成指标+维度的计算，一直是大数据分析领域比较热门的话题，下面将讲述在 GrowingIO ，我们是如何高效解决的。

1. 从一个数据需求说起📈

假设给定如下一组用户行为的原始数据：数据含义: 表示某个用户的某次访问记录。（这里仅列举了地区和设备维度，当然还会存在浏览器、平台、版本等维度，这里不一一列举了。）

1.1 使用 SQL 分析统计

🤔 现在业务想计算「过去7天」在「地区」维度下，「设备: Mac」的人数是多少？So Easy，一个 SQL 搞定在这里插入图片描述

使用 GrowingIO 平台的分析工具可以表示如下：
在这里插入图片描述

但是通过 SQL 这种现查的方式，随着数据量的越来越大，几十亿或上百亿的时候，对计算所需要的资源和响应时间也会线性地增长，此时客户在使用平台工具最直观的感受就是“菊花”转转转，图表一直加载不出来。

1.2 如何使查询更加高效

1.2.1 堆机器，加资源

最直接粗暴的方式，就是增加更多的计算资源，或者对查询的结果进行缓存、预热。但是对于 SaaS 产品来讲，在查询并发比较高的时候，再多的计算资源也会因为查询排队而遇到性能瓶颈。

1.2.2 数据分层

😼 在数仓的分层架构中，对于经常使用的查询结果，我们可以通过离线计算的方式生成了一个结果表「过去7天-地区-设备-指标表」，示例如下：

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。