在clouder manager中使用Flume处理数据链

本文档介绍了如何在Cloudera Manager中设置两个Flume Agent,Agent1从本地文件读取数据并发送到Kafka,Agent2则从Kafka消费数据并存储到HDFS。关键在于理解不同Kafka版本的配置差异,如0.9.0.0版本使用`bootstrap.servers`而非`metadata.brokerList`。此外,还详细说明了配置两个Agent的步骤及配置文件内容,以及解决运行时可能遇到的权限问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目标:


在Cloudera Manager中创建两个Flume的Agent,Agent1从local file中获取内容,写入到kafka的队列中。Agent2以Agent1的sink作为source,将数据从kafka中读取出来,写入到HDFS中。


注意


我的Cloudera Manager使用的是CDH5.8的Parcel,在这个版本中,Kafka使用的是0.9.0.0d 版本。Kakfa0.9与0.8的API有巨大的区别,了解这一点很重要,因为如果不了解这一点,盲目从网上copy相关Flume的Kafka配置,实验将不会成功。例如,如果Kafka的版本是0.8的版本,和Kafka连接会使用zookeep.connect,metadata.brokerList这样的参数,而在0.9.0.0的版本中,这些参数都不再支持,而使用bootstrap.servers这样的参数。


第一步,在Cloudera Manager中安装Flume,安装时指定两个Agent。这一步很简单。


第二步,创建一个新Role Group。默认情况下,所有的Agent都处于一个叫Agent Default Group的角色组中,处于同一角色组中的Agent共享相同的配置。但是在我们这个例子中,两个Agent要完成不同的工作,需要不同的配置。所有新建一个Role Group,并把其中一个Agent移到到这个新的Group中,如下图所示。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值