数据湖：Apache Iceberg在腾讯的探索和实践

最新推荐文章于 2025-04-20 21:35:02 发布

学而知之@

最新推荐文章于 2025-04-20 21:35:02 发布

阅读量808

点赞数 1

文章标签：数据库腾讯大数据 java 编程语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42138677/article/details/118215254

版权

摘要：今天分享的是Apache Iceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：

1、数据湖技术概述

2、Apache Iceberg的简介

3、腾讯为什么选择Apache Iceberg

4、腾讯看点万亿数据下的业务痛点

5、Apache Iceberg在看点实践

6、Apache Iceberg读写和删除

Apache Iceberg

新一代数据湖技术

Apache Iceberg是一种新的表格格式，用于存储移动缓慢的大型表格数据。它旨在改进Hive、Trino和Spark中内置的事实上的标准表布局。

一、数据湖技术概述

数据湖产生的背景：

随着大数据存储和处理需求越来越多样化，如何构建一个统一的存储，并在其上进行多种形式的数据分析，成了企业构建大数据生态的一个重要方向。如何快速、一致、原子性地在存储上构建起 Data Pipeline，成了亟待解决的问题。为此，Uber 开源了 Apache Hudi，Databricks 提出了 Delta Lake，而 Netflix 则发起了 Apache Iceberg 项目。一时间这种具备 ACID 能力的表格式中间件成为了大数据、数据湖领域炙手可热的方向。

腾讯在 2019 年开始投入研发 Apache Iceberg，阿里巴巴也联合 Apache Iceberg 社区积极推动 Flink 实时数据湖技术方案的落地。

那么Apache Iceberg有什么独到之处呢，受到国内两家互联网巨头的青睐？本文跟大家慢慢道来，感兴趣的读者可以关注、收藏哦。

计算引擎之下、存储之上：

数据库大牛、图灵奖获得者 Michael Stonebraker 曾在 MapReduce 诞生之初撰写过一篇文章，题为“MapReduce: A major step backwards”。Michael Stonebraker 在文章中直截了当地指出：MapReduce 忽视了数据库领域积累超过 40 年的技术经验。

虽然大数据技术的出现和迭代降低了用户处理海量数据的门槛，但另一方面，与数据库这样高度优化的技术相比，大数据技术的抽象和实现还是太原始和初级。因此大数据技术在后续十几年的发展中，一直以数据库为目标，将更多数据库的成熟技术和理念借鉴到大数据中。

如何定义这类新技术：

简单地说，这类新技术是介于上层计算引擎和底

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。