前期工作
先部署Kafka集群和Flume。
Flume在解压后只需要在flume-env.sh中修改jdk路径就行了。
而Kafka集群相比较下就有点复杂了,步骤如下:
- 解压kafka的压缩包。
- vi /config/server.properties,在其中进行下面4,5,6步
- broker.id=0 ,这个是每台机器的标识,不可重复。
- delete.topic.enable=true,这个是确保删除Topic否则删除时不仅要清除本地数据,还要清除ZK上的数据。
- log.dirs=/opt/module/kafka/logs,配置自己想存储的路径,这里不仅是日志,它也是数据存储的地方。
- zookeeper.connect=hadoop01:2181,hadoop02:2181,hadoop03:2181,配置ZK集群的ip地址及端口号。
- 配置环境变量,即在/etc/profile下增加PATH。
- 分发一下kafka到集群其他机器上,记得修改broker.id。
- 在每台机器的kafka文件夹下,使用bin/kafka-server-start.sh config/server.properties & 打开kafka服务。
操作流程
在Flume文件夹下,创建一个job文件夹
mkdir job
在job中创建flume-kafka.conf文件ÿ