大数据架构对比记录

Lambda架构

-维护两套项目,开发和维护成本高
-两套链路,数据容易不一致
-数据计算成本大(例如原定每小时计算一次,但有额外新需求需要计算两点半-三点半之间数据,则需要重新计算)

Kappa

-过于依赖kafka消息队列,数据存储成本高,数据存储回溯hdfs有额外成本
-存储有时效性
-数据顺序存储,无法用OLAP做如谓词下推等优化计算策略
-kafka有乱序问题,可能导致结果不正确

Flink+iceberg(优化Kappa)

-实现存储层的流批统一
-中间层支持 OLAP 分析
-基于HDFS存储,存储成本降低,高效回溯

缺点:近实时而不是实时,对接其他数据系统需要额外开发
通过iceberg底层将加入缓存来加速数据湖实时计算

实时数仓设计案例

在这里插入图片描述

为什么Kafka会乱序

Kafka乱序原因
-不同分区的数据顺序无法保证
-消费者并发消费,数据处理顺序混乱
-重试机制导致乱序

Kafka乱序解决
-生产者携带分区键信息来分区处理,同一分区数据顺序消费
-调整超时时间,减少重试几率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我爱肉肉

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值