
大数据
文章平均质量分 85
本专栏主要是提供一些关于大数据方面资料总结
KevinBrain
热爱编程!热爱生活!代码改变世界!一枚喜欢研究各种代码技术,对计算机技术充满好奇心的技术宅。
展开
-
Flink一致性的保障
Flink的一个重大价值在于,它既保证了exactly-once,也具有低延迟和高吞吐的处理能力。端到端严格一次即End-to-End Exactly-Once,从数据读取、引擎处理到写入外部存储的整个过程中,数据不重复、不丢失。端到端严格一次语义需要数据源支持可重放,外部存储支持事务机制,能够进行回滚。在Flink中,设计了两阶段提交协议,提供了框架级别的支持,即TwoPhaseCommitSinkFunctio。原创 2022-10-24 17:33:23 · 2075 阅读 · 1 评论 -
【文档笔记】doris数据仓库-数据表设计:Rollup 与查询
Rollup 可以理解为 Table 的一个物化索引结构。物化 是因为其数据在物理上独立存储,而 索引 的意思是,Rollup可以调整列顺序以增加前缀索引的命中率,也可以减少key列以增加数据的聚合度。翻译 2022-05-24 15:30:57 · 928 阅读 · 0 评论 -
【文档笔记】doris数据仓库-数据表设计:数据模型及数据划分
在 Doris 中,数据以表(Table)的形式进行逻辑上的描述。 一张表包括行(Row)和列(Column)。Row 即用户的一行数据。Column 用于描述一行数据中不同的字段。Column 可以分为两大类:Key 和 Value。从业务角度看,Key 和 Value 可以分别对应维度列和指标列。翻译 2022-05-23 15:36:03 · 1589 阅读 · 0 评论 -
【读书笔记】数据仓库- Apache Kylin权威指南
Apache Kylin的工作原理就是对数据模型做Cube预计算,并利用计算的结果加速查询。过程如下:(1)指定数据模型,定义维度和度量。(2)预计算Cube,计算所有Cuboid并将其保存为物化视图。(3)执行查询时,读取Cuboid,进行加工运算产生查询结果。原创 2022-05-07 14:32:58 · 877 阅读 · 0 评论 -
【读书笔记】YARN架构设计与实现原理
由于MRv2将资源管理功能抽象成了一个独立的通用系统YARN,直接导致下一代MapReduce的核心从单一的计算框架MapReduce转移为通用的资源管理系统YARN原创 2022-05-05 16:28:39 · 1485 阅读 · 0 评论