离线数仓中，为什么用两个flume，一个kafka

最新推荐文章于 2024-07-06 02:09:50 发布

原创最新推荐文章于 2024-07-06 02:09:50 发布

· 2.7k 阅读

·

3

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#flume #kafka #大数据

kafka 专栏收录该内容

7 篇文章

订阅专栏

文章讨论了在实时数仓中，为何Flink采用KafkaChannel和直接使用Kafka的原因，以及在离线数仓中为何需要Flume额外处理，以确保数据完整性和解决零点漂移问题。KafkaChannel的问题在于它不包含header，而Flume的介入有助于添加必要信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

实时数仓中，为什么没有零点漂移问题？
1. 因为flink直接取的事件时间
用kafka是为了速度快，并且数据不丢，那为什么既用了kafkachannel，也用了kafka，而不只用kafkachannel呢？
1. 因为需要削峰填谷
离线数仓中，为什么用两个flume，一个kafka，直接用taildirsource,kafkachannel,hdfssink不行吗？
1. 不行
2. kafka可以削峰填谷
3. 如果用kafkachannel，那么数据写到kafka，只剩event，没有header，无法解决零点漂移问题，而多加一个flume，可以在kafkasource中添加拦截器。

博客等级

码龄8年

148
原创

187
点赞

225
收藏

168
粉丝

关注

私信

热门文章

分类专栏

Spark 13篇
大数据 17篇
Hive 19篇
java 9篇
doris 3篇
Flink 34篇
算法 7篇
大数据面试题 13篇
数据结构 5篇
数据治理 2篇
实时数仓 4篇
离线数仓 4篇
kafka 7篇
Maxwell 1篇
dolphinscheduler 1篇
hadoop 1篇
ChatGPT 1篇

展开全部收起

上一篇：: SQL-非等值连接

下一篇：: SQL-方法论

最新评论

hive启用LAST_ACCESS_TIME(访问时间)
ji丶: 您好，按您的配置操作后，show table可以显示last_access_time，但是执行insert 语句时，报错org.apache.hadoop.hive.ql.metadata.InvalidTableException: Table not found _dummy_table 应该怎么解决呢
flink1.12.4消费kafka 报错 The coordinator is not available
m0_52725114: 可是我现在使用的是1.16.2同样有问题，具体在1.16.x是怎么解决的呢？
Doris注意事项，Doris部署在阿里云，写不进去数据
Lisza: 我也遇到这个问题了,师兄可以加个微信好好请教一下吗,救救孩子吧
doris备份恢复bug
王小王479: 凯哥厉害
Hive SQL血缘解析
普通网友: 干货满满！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。