本文简要介绍用flume做日志采集,然后用hbase做数据存储,最后通过hive查询数据输出文件的一种过程模式。
流程如下图:
假定:mysql已安装并启动,hadoop及zookeeper集群已安装部署并启动。
一、flume 日志采集
1. flume分布式安装(略)
本文采用 apache-flume-1.9.0,一主两从搭建,通过负载均衡方式将采集到的日志输入hbase存储
2. 基本配置
(1) # master 通过exec 方式监听日志文件输出
[root@master conf]# cd /usr/local/apache-flume-1.9.0-bin
[root@master conf]# vim conf/flume-client.conf
# agent1 name
agent1.channels = c1
agent1.sources = r1
agent1.sinks = k1 k2
# set channel
agent1.channels.c1.type = memory
agent1.channels.c1.capacity = 1000
agent1.channels.c1.transactionCapacity = 100
# set source # exec监控command
agent1.sources.r1.channels = c1
agent1.sources.r1.type = exec
agent1.sources.r1.command = tail -F /usr/local/apache-flume-1.9.0-bin/data/test_cluster.log
# set sink1
agent1.sinks.k1.channel = c1
agent1.sinks.k1.type = avro
agent1.sinks.k1.hostname = slave1
agent1.sin