Kylin多维分析引擎（二）：Kylin基本原理与架构

最新推荐文章于 2024-07-24 16:02:38 发布

原创最新推荐文章于 2024-07-24 16:02:38 发布 · 596 阅读

CC 4.0 BY-SA版权

5 篇文章

订阅专栏

1.Kylin的理论基础与工作原理

存储领域屡试不爽的办法就是空间换时间：Kylin通过预计算，把预计算的Cuboid存储下来(占用额外的空间)，真正查询的时候基于Cuboid中间数据性能成数量级提升。

Kylin各组件从大的方面可以分为Cube构建和Cube查询两部分，往下可细分为如下组件：

数据源：Hadoop/Hive/Kafka/RDBMS
1. Hadoop、Hive、Kafka、RDBMS是Kylin的数据源，负责存储原始数据。
2. 原始数据多以星型模型或者雪花模型来存储，目前Kylin仅支持一张事实表+多张维表，如果业务复杂，有多张事实表需要提前预处理为一张宽表或者使用view。
Cube Build Engine
1. 负责Cube预计算，主要过程如下：
Metadata
1. Kylin元数据包括Cube定义、星型/雪花模型定义、Job和Job执行信息、维度信息等
2. 以json格式存储在HBase(也支持存储在MySQL)
HBase
1. 存储Cube的地方，充分利用了HBase的随机读写、横向扩展能力
外部第三方web app或者BI工具
1. 基于Kylin提供的RestfulAPI和JDBC/ODBC接口，第三方webapp或者基于SQL的BI工具，包括Excel都可以轻松跟Kylin集成。
2. 常见BI工具均可整合：Tableau，PowerBI/Excel，MSTR，QlikSense，Hue和SuperSet等。
RestServer
1. 提供Restful接口(用来进行Cube的各种操作、元数据管理、权限控制等等)
2. Restful实现SQL查询(转SQL)
Query Engine
1. SQL引擎层(使用Calcite框架实现SQL解析)，提供JDBC接口
Routing
1. 将SQL执行计划转换为Cube查询