科杰科技基于Apache lceberg构建湖仓一体化解决方案

本文介绍了科杰科技如何基于Apache Iceberg实现湖仓一体化,解决了Kafka在数据存储和分析上的局限,强调了Iceberg的特性和支持的数据格式,并详细阐述了与Hive、Spark、Flink的整合过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

01总体设计

我们为什么需要数据湖,数据湖又能解决哪些痛点问题?

在数据应用中,需要存储的数据不仅有格式化数据,也有非格式化数据,如:文本视频、图片、音乐等。多种数据格式的数据,如何进行集中式的数据存储,那就是今天的主角数据湖,数据湖可以实现离线和实时底层数据存储的统一,并解决Kappa架构的痛点问题。

Kappa架构痛点问题:

1)Kafka不支持海量数据存储;

2)Kappa架构中使用Kafka做分层,Kafka不支持SQL、 OLAP分析;

3)Kafka做分层,不能很好集成原有的数据血缘关系系统、数据质量管理系统;

4)Kafka不支持数据的更新,只支持数据的Appand。

02系统核心设计
 

数据驱动决策正在加速推动数据存储的转变,各行业陆续跟进采用了数据湖存储各种数据。但数据湖采用新的原始数据存储和处理范式,缺乏构造和治理,会迅速沦为“数据沼泽”。

可视化湖仓一体作为一种新型数据架构,它同时吸收了数据仓库和数据湖的优势,数据开发工程师、数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能对当前数据治理以及过去数据沼泽开荒带来更多的便利性。

科杰科技核心设计如下图所示:

 



Iceberg概念及特点

Apache Iceberg 是一种用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值