获得技术资料内容,请访问Greenplum中文社区网站
在大数据处理和应用场景中经常需要从亿级甚至十亿级会员中搜索出符合特定标签的会员.很多企业都会使用 HBase 或者 Hive + Hadoop 的方式,这样的方式查询效率非常慢,在标签非常多的情况下计算,更是让人无法忍受。这里我们介绍一种 Greenplum + Roaringbitmap 的组合使用方案,亿级甚至十亿级会员万级标签的条件下查询毫秒级出结果。

业务系统场景图
数据从业务系统经过处理后流进OLAP分析平台,OLAP 平台的底层支持就是使用Greenplum + Roaringbitmap。 Greenplum 是一个分布式大数据平台数据库,基于MPP架构的模式来达到快速分析效果的。 关于 Greenplum 的官方介绍:About the Greenplum Architecture
(http://gpdb.docs.pivotal.io/5160/admin_guide/intro/arch_overview.html)。
Roaringbitmap 是压缩的bitmap的

本文介绍了如何利用Greenplum结合Roaringbitmap在大数据场景下实现亿级会员的十万级标签毫秒级查询。通过在Greenplum上部署Roaringbitmap,可以显著提高查询效率,例如2亿会员数据导入仅耗时60秒,特定标签查询从数秒降至100毫秒。同时,讨论了硬件配置、表结构设计以及空间占用情况,展示了一个高效的大数据查询解决方案。
最低0.47元/天 解锁文章
718

被折叠的 条评论
为什么被折叠?



