Kafka 与 Flume 很多功能确实是重复的。以下是评估两个系统的一些建议:
- Kafka 是一个通用型系统。你可以有许多的生产者和消费者分享多个主题。相反地,Flume 被设计成特定用途的工作,特定地向 HDFS 和 HBase 发送出去。Flume 为了更好地为 HDFS 服务而做了特定的优化,并且与 Hadoop 的安全体系整合在了一起。基于这样的结论,Hadoop 开发商 Cloudera 推荐如果数据需要被多个应用程序消费的话,推荐使用 Kafka,如果数据只是面向 Hadoop 的,可以使用 Flume。
- Flume 拥有许多配置的来源 (sources) 和存储池 (sinks)。然后,Kafka 拥有的是非常小的生产者和消费者环境体系,Kafka 社区并不是非常支持这样。如果你的数据来源已经确定,不需要额外的编码,那你

本文探讨了Kafka与Flume在大数据处理中的差异。Kafka作为一个通用系统,适合多应用共享数据,而Flume专为向HDFS和HBase传输设计,与Hadoop安全体系集成。Flume提供了丰富的数据来源和存储选项,适合预定义的数据流,而Kafka更适合自定义生产者和消费者。此外,Flume支持数据实时处理,但不复制事件,可能导致数据丢失。Kafka则提供数据复制,保证不丢失。两者可配合使用,Flume作为Kafka数据源,将数据导入Hadoop。
最低0.47元/天 解锁文章
1149

被折叠的 条评论
为什么被折叠?



