Kylin简述

毫无感情的dj

已于 2022-10-05 12:40:50 修改

阅读量1.1k

点赞数

文章标签： kylin 数据仓库 hive

于 2022-10-05 12:40:36 首次发布

本文链接：https://blog.youkuaiyun.com/wudidahuanggua/article/details/127162165

版权

Apache Kylin是一个开源的分布式分析引擎，提供亚秒级的SQL查询接口和OLAP能力，支持超大规模Hadoop数据。其核心思想是预计算，将数据按维度和度量预计算成Cube存储在HBase中。Kylin的优势包括标准SQL接口、支持超大规模数据、亚秒级响应和与BI工具的集成。其技术架构包括REST Server、查询引擎、元数据管理、任务引擎和Cube Build Engine。Kylin适用于需要快速分析大规模数据的场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、Kylin简介

kylin是什么

Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。（OLAP（on line analytical processing）联机分析处理是一种软件技术，应用于数据仓库分析处理。它使分析人员能够迅速、一致、交互地从各个方面观察信息，以达到深入理解数据的目的。从各方面观察信息，也就是从不同的维度分析数据，因此OLAP也成为多维分析。提供决策支持，多应用于数据仓库。

Kylin的核心思想是预计算。

理论基础是：以空间换时间。即多维分析可能用到的度量进行预计算，将计算好的结果保存成Cube并存储到HBase中，供查询时直接访问。

将数据源(比如Hive)中的数据按照指定的维度和指标，由计算引擎Mapreduce离线计算出所有可能的查询结果(即Cube)存储到HBase中。HBase中每行记录的Rowkey由各维度的值拼接而成，度量会保存在column family中。为了减少存储代价，这里会对维度和度量进行编码。查询阶段，利用HBase列存储的特性就可以保证Kylin有良好的快速响应和高并发。