大数据
文章平均质量分 95
renqHIT
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache Kylin基本原理与常见优化
一、基本原理Apache Kylin是个开源分布式OLAP引擎。Kylin一般是作为数据仓库的应用层引擎,对业务提供SQL查询分析服务,针对数据维度多、数据基数大的场景,Kylin预计算可以保证在毫秒级时间返回分析结果,查询阶段性能十分出众。Kylin的相关人员主要分为三种角色:1. 数据用户 2. 数据仓库建模人员 3. 数据平台管理员。数据用户通过BI可视化分析工具或者编写SQL查询Kylin的数据; 数据仓库建模人员维护Kylin元数据,设计如何构建Cube,选择维度、度量;数据平台管理员提供存原创 2020-06-23 20:28:38 · 943 阅读 · 0 评论 -
深入理解HBase系统架构
一、写在前面最近在整理HBase相关的资料,发现国外一篇通俗易懂、深入浅出的博客介绍了HBase系统架构。本文摘录部分核心内容,欢迎有兴趣的读者点击这里查看原文。在阅读本文前,读者可以尝试回答以下几个问题:HBase数据存储分布Zookeeper的作用数据写入过程数据读取过程为什么rowkey长度不要太长HBase有哪些缓存HBase有哪些索引如果对上述问题你的回答不够肯定,...原创 2018-11-04 18:12:57 · 627 阅读 · 0 评论 -
浅谈从Google Mesa到百度PALO
最近在研究OLAP相关的技术,正好看到Google 2014年的论文《Mesa: Geo-Replicated, Near RealTime, Scalable Data Warehousing》,以及百度最近2017年开源的基于Mesa+Impala的实现系统PALO,本篇就尝试结合起来看下二者,主要是学习介绍性质的文章。1. MesaMesa是一个Google内部使用的数据仓库系统,从论文的标题可以抓住几个关键词:可实现跨DC复制的、近实时的、可扩展的。这几点算是Mesa的特色所在,同时和Mes转载 2020-05-18 21:31:33 · 772 阅读 · 0 评论 -
《Streaming 102》: Beam模型
写在前面TODO:时刻遵守金字塔原理!TODO:一些背景回顾、本文框架Trigger 触发器 何时窗口结果被持久存储到外部;做个比喻,触发器类似相机的快门,它定义了什么时候让计算结果留下快照。Watermark 水印 针对事件时间的输入完整性概念; TODO:用通俗的说法解释什么是水印Accumulation 累加器 对同一个窗口的多组计算结果,它们是如何累加的;例如,新结果覆盖旧结...原创 2020-01-14 21:11:22 · 834 阅读 · 0 评论 -
《SparkSQL内核剖析》【物理计划篇】
一、概览物理计划是将Spark SQL生成的逻辑算子树映射成物理算子树,并将逻辑计划的信息映射到Spark Core模型中的RDD、Transformation、Action的过程。生成物理计划后,一条SQL语句就变成了可以执行的Spark任务。将逻辑计划转换成物理计划的抽象类叫做QueryPlanner,它定义了转换的框架:首先得到一系列候选物理计划、然后自底向上替换算子树节点的物理计划、最后...原创 2019-07-04 00:36:01 · 1294 阅读 · 0 评论
分享