
kylin
文章平均质量分 82
boat824109722
这个作者很懒,什么都没留下…
展开
-
Kylin系列-Apache Kylin优化之—Cube的高级设置
本文从apachekylin公众号系列文章整理。 随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组(Aggregation Group)、联合维度(Joint Dimension)、层级维度(Hierachy Dimension)和必要维转载 2017-12-06 08:53:31 · 1526 阅读 · 0 评论 -
Kylin系列-使用Saiku+Kylin构建多维分析OLAP平台
关于Kylin的介绍和使用请参考之前的文章 《分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例》 Kylin对外提供的是SQL查询接口,基于Kylin构建OLAP多维分析系统,第一种方案是针对业务,定制开发一个前端界面,将界面上用户的选择和操作,翻译成SQL,提交给Kylin查询。另一种方案则是将Kylin与BI工具整合起来,借助BI工具,对Kylin中的Cube转载 2017-12-05 11:12:53 · 1406 阅读 · 0 评论 -
Kylin系列-Apache Kylin原理学习之Cube的创建与Build
Cube是一种典型的多维数据分析技术,一个Cube可以有多个事实表,多个维表构成。如果您还不了解这些概念,建议您搜索下数据仓库、OLAP、Cube、星型模型、事实表、维度表等等。比如一个简单例子,分析网站流量的Cube,包含一个事实表和四个维度表: 事实表可能有以下字段: 天、来源ID、浏览器ID、操作系统ID、PV、PageNumber等等; 其中,小时、来源ID、浏览器ID、操作系统ID转载 2017-12-05 11:22:37 · 963 阅读 · 0 评论 -
Kylin系列-Saiku结合Hive做大数据多维数据分析
前面介绍了将Saiku和Kylin结合起来做OLAP多维分析,Saiku也支持多种其他数据源,如MySQL,JDBC等,本文介绍将Saiku和Hive结合起来使用的方法,并解决期间遇到的问题。 注:Saiku社区版(Saiku CE)的下载地址为: http://community.meteorite.bi/?cedownload Saiku与Hive Saiku最新的社区转载 2017-12-05 11:24:11 · 1392 阅读 · 0 评论 -
Kylin系列-大数据分析界的“神兽”Apache Kylin有多牛?
本文作者:李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay、微软。 1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平转载 2017-12-05 14:28:01 · 1972 阅读 · 0 评论 -
Kylin系列-Caravel–一款开源OLAP+数据可视化分析前端工具,支持Druid和Kylin
关键词:caravel、olap、kylin、数据可视化 Caravel(曾用名Panoramix),是由知名在线房屋短租公司Airbnb开源的一款数据探索与可视化工具,该工具在可视化、易用性和交互性上非常有特色,用户可以轻松对数据进行可视化分析。官网地址为: http://airbnb.io/caravel/ Caravel介绍 Caravel底层使用Python开发,与SQL转载 2017-12-05 14:29:33 · 6597 阅读 · 0 评论 -
Kylin系列-Apache Kylin中使用Streaming Table构建准实时Cube
关键字:kylin、streaming table Kylin从1.5版本开始,引入了Streaming Table,目的是为了减低OLAP分析的延时(比如Druid、ElasticSearch都支持实时数据流)。 Streaming Table周期性的从Kafka中读取数据,根据Model和Cube的定义,将计算好的数据写入HBase,以供查询。 从1.5.2版本开始,官网上给转载 2017-12-05 14:31:07 · 2036 阅读 · 1 评论 -
Kylin系列-在Apache Kylin中使用Count Distinct
在OLAP多维分析中,Count Distinct(去重计数)是一种非常常用的指标度量,比如一段时间内的UV、活跃用户数等等; 从1.5.3开始,Apache Kylin提供了两种Count Distinct计算方式,一种是近似的,一种是精确的,精确的Count Distinct指标在Build时候 会消耗更多的资源(内存和存储),Build的过程也比较慢; 近似Count Distin转载 2017-12-05 14:35:05 · 1939 阅读 · 1 评论 -
Kylin系列-Apache Kylin中对上亿字符串的精确Count_Distinct示例
上篇文章《在Apache Kylin中使用Count Distinct》中介绍了Apache Kylin中Count Distinct的实现,如果业务中能接受1.22%的误差,那么肯定首选近似算法,因为它能节省很多资源和时间。如果业务中必须使用精确去重,那么就看看本文的例子(针对上亿字符串的精确去重)。 事实表 hive> desc test_t_pbs_uv_fact;OKad_id转载 2017-12-05 14:37:27 · 2141 阅读 · 0 评论 -
Kylin系列-Apache Kylin优化–高级设置:聚合组(Aggregation Group)原理解析
本文转自apachekylin公众号。 “随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组(Aggregation Group)、联合维度(Joint Dimension)、层级维度(Hierachy Dimension)和必要维度(Mand转载 2017-12-05 14:39:52 · 2979 阅读 · 0 评论 -
Kylin系列-分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例
关键字:olap、Kylin Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,查询引擎,Job引擎及存储引擎等,同时包括REST服务器以响应客户端请求转载 2017-12-05 11:10:39 · 1297 阅读 · 0 评论