kylin、druid、clickhouse_kylin clickhouse-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_36190755/article/details/128947055

kylin
Kylin的数据模型本质上是将二维表（Hive表）转换为Cube，然后将Cube存储到HBase表中，也就是两次转换。
适用于聚合查询场景；因为数据预聚合，Kylin可以说是最快的查询引擎（group-by查询这样的复杂查询，可能只需要扫描1条数据）；Kylin查询效率取决于是否命中CuboId，查询波动较大；HBase索引有点类似MySQL中的联合索引，维度在rowkey中的排序和查询维度组合对查询效率影响巨大；所以Kylin建表需要业务专家参与。

Druid数据模型比较简单，它将数据进行预聚合，只不过预聚合的方式与Kylin不同，Kylin是Cube化，Druid的预聚合方式是将所有维度进行Group-by。
Druid适用于聚合查询场景但是不适合有超高基维度的场景；存储全维度group-by后的数据，相当于只存储了Kylin Cube的Base-CuboID；每个维度都有创建索引，所以每个查询都很快，并且没有类似Kylin的巨大的查询效率波动。

Clickhouse数据模型就是普通二维表
MergeTree Family作为主要引擎系列，其中包含适合明细数据的场景和适合聚合数据的场景；Clickhouse的索引有点类似MySQL的联合索引，当查询前缀元组能命中的时候效率最高，可是一旦不能命中，几乎会扫描整个表，效率波动巨大；所以建表需要业务专家，这一点跟Kylin类似。

总结
Kylin、Druid只适合聚合场景，ClickHouse适合明细和聚合场景
聚合场景，查询效率排序：Kylin > Druid > ClickHouse
Kylin、ClickHouse建表都需要业务专家参与
Kylin、ClickHouse查询效率都可能产生巨大差异
ClickHouse在向量化方面做得的最好，Druid少量算子支持向量化、Kylin目前还不支持向量化计算