
Kylin
慕容馨磊
这个作者很懒,什么都没留下…
展开
-
大数据之Kylin入门——第五章Kylin之cube构建优化
前面说过构建一个n维的cube有多少种情况了,2^n-1种。构建一个10维的是1023种情况,一个20维的是1048576。那如果有30维甚至100维的了?这对于集群来说压力非常大,所以我们应该想想到底有没有必要构建这么多种情况了。举个例子,年,月,日三个字段总共可以构建7种可能。但是年,日构建起来有必要吗?单独一个日构建有必要吗?真正有价值的组合是 年月日、年月、年,这3种可能。计算的可能性...原创 2019-11-29 21:54:16 · 573 阅读 · 0 评论 -
大数据之Kylin入门——第四章Kylin之cube构建算法
第三章中步骤4中的多维度构建cube其实非常巧妙,不得不佩服最开始想出这些算法的人真的非常聪明,算法不复杂但非常巧妙。cube的构建算法有两种。早期的是逐层构建算法,后来改进之后又有了快速构建算法。1.逐层构建算法如图所示,数据总共有4维,全量的数据从下往上构建而不是从上往下构建。这是为什么了?因为从4维表能得到3维表,从3维表能得到2维表,这样就节省了很多运算。不用每次都从...原创 2019-11-29 21:20:52 · 673 阅读 · 0 评论 -
大数据之Kylin入门——第三章Kylin之cube构建原理
上一章中讲了怎么创建cube,最后演示了一个cube怎么执行的,这一章来说说kylin到底是怎么来构建cube的。点击我们的cube的最右边的箭头,页面右边展示了整个cube构建的详细步骤,查看每个步骤的log,显示详细构建过程。1.构建中间表。拿第二章的例子来说,就是构建由员工和部门组成的宽表。日志如下:2.将中间表的数据均匀分配到不同的文件。因为后面的程序是...原创 2019-11-28 23:05:16 · 684 阅读 · 0 评论 -
大数据之Kylin入门——第二章Kylin入门
1.数据准备hive建表语句和一些测试数据:部门表:create external table if not exists default.dept(deptno int,dname string,loc int) row format delimited fields terminated by '\t';10 ACCOUNTING 170020 RESEARCH 1...原创 2019-11-28 22:21:24 · 474 阅读 · 0 评论 -
大数据之Kylin入门——第一章Kylin简介
1.Kylin是什么Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口以及多维分析(OLAP)能力以支持超大规模数据,最初由eBay开发并贡献至开源社区,名字也很中国风,麒麟。Kylin的很多内容很多都是国内开发人员开发贡献的,官方文档中文版也非常友好。Kylin它能在亚秒内查询巨大的Hive表。第一次看到这段简短的文字说明,我当时就纳闷了...原创 2019-11-26 23:51:54 · 623 阅读 · 1 评论