
Kylin
文章平均质量分 94
武子康
永远好奇,无限进步。
展开
-
大数据-166 Apache Kylin Cube 流式构建 整体流程详细记录
上节我们完成了如下的内容:实时数据更新是一种普遍的需求,快速分析趋势才能做正确的决策。KylinV1.6发布了扩展StreamingCubing功能,它利用Hadoop消费Kafka数据的方式构建Cube,这种方式构建的Cube能满足分钟级的更新需求。步骤:项目 => 定义数据源(Kafka)=> 定义Model => 定义Cube => Build Cube => 作业调度(频率高)从Kafka消费消息,每条消息都需要包含。原创 2024-10-12 09:12:33 · 4383 阅读 · 0 评论 -
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
省略Model等操作。构建前面Cube4类似的Cube7,仅在维度定义有区别。(我这里是Clone Cube4,然后修改的)wzk_test_kylin_cube_7的字段中,都是Normal:在单个聚合组中,可以对维度进行设置,包括强制维度、层级维度、联合维度。强制维度:指的是那些总会出现在Where条件或者GROUP BY子句中的维度层级维度:一组具有层级关系的维度(如:国家、省、市)联合维度:将多个维度看成一个角度,要么一起出现,要么都不出现。原创 2024-10-12 09:03:08 · 3215 阅读 · 0 评论 -
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
上节我们完成了如下的内容:Cuboid 特指 Kylin 中在某一种维度组合下所计算的所有数据,以减少Cuboid数量为目的的优化统称为Cuboid剪枝。在没有采取任何优化措施的情况下,Kylin会对每一种维度的组合进行预计算。Cube的剪枝优化是一种试图减少额外空间占用的方法,这种方法的前提是不会明显影响查询时间,在做剪枝优化的时候:Kylin提供了一系列简单的工具来帮助他们完成Cube的剪枝优化。ApacheKylin 提供了一个简单的工具,检查Cube中哪些Cuboid最终被预计算了,称这些Cubo原创 2024-10-11 09:59:17 · 4009 阅读 · 0 评论 -
大数据-163 Apache Kylin 全量增量Cube的构建 手动触发合并 JDBC 操作 Scala
要将数据以可视化方式展示出来,需要使用Kylin的JDBC方式连接执行SQL,获取Kylin的执行结果使用Kylin的JDBC与JDBC操作MySQL一致。选择要合并的 Cube 和 Segments: 进入 Kylin Web UI,选择你要操作的 Cube,进入该 Cube 的详情页面。在“Segments”标签页下,可以看到当前 Cube 的所有 Segments。选择你希望合并的 Segments。合并 Segments: 点击页面上的 “Merge Segment” 按钮。通常情况下,Ky原创 2024-10-11 09:42:47 · 3960 阅读 · 0 评论 -
大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图
增量构建的Cube需要指定分割时间列,例如:将日期分区字段添加到维度列中:Data Model:New Join Condition,需要配置好几个:配置成如下的结果:维度配置如下图所示:填写名字等跳过,维度需要添加 DT、其他都要:配置完的结果如下图:度量配置如下:(Bulk Add Measures 快速配置)全量构建与增量构建的Cube查询的方式对比:全量构建Cube:- 查询引擎只需要向存储引擎访问单个Segment所对应的数据,无需进行Segment之间的聚合- 为了加强性能,单个Segme原创 2024-10-10 10:20:38 · 3916 阅读 · 0 评论 -
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
Apache Kylin 是一个开源的分布式分析引擎,专注于提供大数据的实时OLAP(在线分析处理)能力。Cube(立方体)是 Apache Kylin 的核心概念之一,通过预计算大规模数据的多维数据集合,加速复杂的 SQL 查询。Kylin Cube 查询与优化的关键在于利用预计算和裁剪技术最大化查询性能,同时通过增量构建、维度裁剪、Cuboid 裁剪等优化策略来减少 Cube 的构建时间和存储空间占用。通过合理的 Cube 设计和调优,可以在大规模数据环境中实现快速响应的复杂 OLAP 查询,并支持实时原创 2024-10-10 08:43:45 · 4171 阅读 · 0 评论 -
大数据-160 Apache Kylin 构建Cube 按照日期构建Cube 详细记录
Apache Kylin 是一个开源的分布式分析引擎,专注于提供大数据的实时OLAP(在线分析处理)能力。Cube(立方体)是 Apache Kylin 的核心概念之一,通过预计算大规模数据的多维数据集合,加速复杂的 SQL 查询。原创 2024-10-09 09:26:32 · 3795 阅读 · 0 评论 -
大数据-159 Apache Kylin 构建Cube 准备和测试数据
Apache Kylin 是一个开源的分布式分析引擎,专注于提供大数据的实时OLAP(在线分析处理)能力。Cube(立方体)是 Apache Kylin 的核心概念之一,通过预计算大规模数据的多维数据集合,加速复杂的 SQL 查询。原创 2024-10-09 08:58:15 · 3609 阅读 · 0 评论 -
大数据-158 Apache Kylin 安装配置详解 集群模式启动
需要注意:要求HBase的hbase.zookeeper.quorum值必须只能是 host1、host2这种,不允许host1:2181、host2:2181这种。你可以通过wegt或者本地下载完传到服务器上,按照需求,我这里是上传到 h122 节点上。修改完的结果为如下:(这里我暂时注释了,防止我的FlinkYRAN以后不能用了)我这里就不根据上图来做了,因为我的服务器资源比较紧张,我就自由安排了。h121运行即可,但是要检查确认。h121运行即可,但是要检查确认。h121运行即可,但是要检查确认。原创 2024-10-08 09:21:15 · 4125 阅读 · 0 评论 -
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
在线查询离线构建在线查询模式主要处于上半部分,离线构建处于下半部分。数据源主要是Hadoop Hive,数据以关系表的形式输入,保存着待分析的数据,根据元数据的定义,构建引擎从数据源抽取数据,并构建CubeKylin可以使用MapReduce或Spark作为构建引擎,构建后的Cube保存在右侧的存储引擎中,一般选用HBase作为存储完成了离线的构建后,用户可以从查询系统发送SQL进行查询分析Kylin提供了各种RestAPI,JDBC、ODBC接口。原创 2024-10-08 08:49:12 · 5204 阅读 · 0 评论