
Iceberg
文章平均质量分 94
Apache Iceberg 是一种新的表格格式,用于存储和分析大型的、移动缓慢的表格数据。它的工作方式类似于 SQL 表,它旨在改进内置在 Hive、Presto 和 Spark 中的事实上的标准表布局。
@SmartSi
Stay Hungry, Stay Foolish
展开
-
HDFS廉颇老矣?基于对象存储的数据湖构建新思路
我们经常会被问到一个企业大数据架构的问题:随着企业收集 / 产生的数据越来越多,如何设计一套高效廉价的大数据架构,在尽可能多保留所有原始数据内容的同时还可以支持“无缝接入”的新的分析算法。本文所要介绍的数据湖解决方案可能是解决这个难题的一种新思路。转载 2023-08-15 07:27:01 · 394 阅读 · 0 评论 -
Apache Iceberg:Netflix 数据仓库的基石
Iceberg 主要设计思想:记录表在所有时间的所有文件,和 Delta Lake 或 Apache Hudi 一样,支持 snapshot,其是表在某个时刻的完整文件列表。带来的问题是如果一张表有很多分区,我们需要使用 HMS(Hive MetaStore)来记录这些分区,同时底层的文件系统(比如 HDFS)仍然需要在每个分区里面记录这些分区数据。在 Netflix,他们希望有更智能的处理引擎,比如有 CBO 优化,更好的 Join 实现,缓存结果集以及物化视图等功能。原生支持云对象存储,支持多并发写。转载 2023-08-01 08:48:19 · 148 阅读 · 0 评论 -
为什么我选择 Apache Iceberg
Delta Lake 将其定义为:Delta Lake is an open-source storage layer that brings ACID transactions to Apache Spark and big data workloads。而 Apache Iceberg 将其定义为:Apache Iceberg is an open table format for huge analytic datasets。首先,这类技术它的定位是在计算引擎之下,又在存储之上。转载 2023-07-30 15:37:21 · 207 阅读 · 0 评论 -
爱奇艺数据湖实战
数据湖概念于2010年 首次提出,经过多年的演变,目前演化出两种不同的定义——公有云数据湖、非公有云数据湖。规模大,成本低:能支持PB级别数据规模支持更新:包括历史分区新增数据、行级更新等增量拉取:将表的变更转成流数据用于构建下游表时效性:近实时(5分钟)查询快:交互级查询速度表格式是 Iceberg 设计的核心概念,因而需要首先明确表格式的定义。从用户的角度,表格式用于回答“表里面有哪些数据”,表格式的关键目标是“让用户和工具能高效地处理表下的数据”。转载 2023-07-28 08:05:33 · 144 阅读 · 0 评论