亿级数据去重实战：Apache Druid Bitmap索引与聚合函数深度优化-优快云博客

亿级数据去重实战：Apache Druid Bitmap索引与聚合函数深度优化

在实时分析场景中，数据去重准确性直接影响业务决策质量。Apache Druid作为高性能实时分析数据库，提供Bitmap索引与多种聚合函数组合的去重方案。本文系统对比两种核心去重策略的实现原理、性能表现及适用场景，帮助运营人员选择最优方案。

电商平台实时UV统计场景中，运营团队曾面临经典困境：使用传统count(distinct)函数导致查询延迟超过8秒，无法满足实时监控需求；而简化的近似去重方案又存在3%以上误差，影响促销活动效果评估。这种矛盾在数据量达到亿级时尤为突出。

Druid通过两种技术路径解决此问题：

Druid维度列采用特殊的倒排索引设计，每个维度值对应一个Roaring Bitmap（ roaring bitmap压缩算法），用于标记包含该值的行位置。如"country"维度中"China"对应Bitmap存储所有中国用户的行索引，结构如下：

维度列由三部分组成：

当执行SELECT COUNT(DISTINCT user_id) FROM logs WHERE dt='2025-01-01'时，Druid执行步骤：

核心优势在于Bitmap的位运算特性，多个筛选条件可通过Bitmap AND/OR操作高效组合，避免全表扫描。官方文档docs/content/design/segments.md详细描述了索引结构。

HyperLogLog通过概率算法估算基数，ingestion时配置聚合器：

{
  "type": "hyperUnique",
  "name": "uv_hll",
  "fieldName": "user_id"
}

查询时使用对应聚合函数：

{
  "type": "hyperUnique",
  "name": "uv",
  "fieldName": "uv_hll"
}

空间复杂度仅需12KB即可处理亿级基数，误差率约0.8%，适合趋势监控场景。

Theta Sketch提供更高精度（误差<1%）和集合运算能力，支持跨时间段UV累加：

{
  "type": "thetaSketch",
  "name": "uv_sketch",
  "fieldName": "user_id",
  "size": 16384
}

extensions-core/datasketches/模块提供完整实现，适合需要精确区间对比的分析场景。

在3台8核64G服务器组成的Druid集群上，使用公开编辑日志数据集（1亿行，user_id维度基数500万）进行测试：

关键发现：

在ingestion规范中针对高频去重维度开启Bitmap：

{
  "type": "string",
  "name": "user_id",
  "bitmapIndex": true
}

建议仅对基数<1000万的维度启用，高基数维度（如UUID）会导致索引膨胀。配置详情见docs/content/ingestion/batch-ingestion.md。

大型电商平台实践案例：

通过examples/conf/druid/_common/common.runtime.properties配置缓存策略，将热门查询结果缓存10分钟，进一步降低延迟。

选择去重方案时需评估三个关键因素：

决策流程图： mermaid

通过这套方法论，某支付平台将实时交易去重查询从12秒优化至280ms，同时保障财务对账精度，支撑了双11期间每秒3000+的查询请求。

关注官方文档docs/content/querying/aggregations.md获取最新聚合函数特性，下期将分享Druid与Flink的实时数据 pipeline构建方案。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考