云凡教育分享-Flume-0.9.4和Hbase-0.96整合(2)

Flume-0.9.4Hbase-0.96整合(2)

这几天由于项目的需要,需要将Flume收集到的日志插入到Hbase中,有人说,这不很简单么?Flume里面自带了Hbase sink,可以直接调用啊,还用说么?是的,我在本博客的《Flume-1.4.0和Hbase-0.96.0整合》文章中就提到如何用Flume和Hbase整合,从文章中就看出整个过程不太复杂,直接做相应的配置就行了。那么为什么今天还要特意提一下Flume-0.9.4和Hbase-0.96整合?这是因为Flume-0.9.4和Hbase-0.96整合比Flume-1.4.0和Hbase-0.96整合麻烦多了!不是随便几个配置就能搞定的,里面涉及到修改Flume和Hadoop的源码!
  先看下我公司的Hadoop、Hbase、Flume等的配置吧。2013年10月末,公司的Hadoop升级到2.2.0,Hbase升级到0.96,Zookeeper升级到3.4.5,但是Flume版本由于各种原因没有升级,还是用Flume-0.9.4,而Flume-0.9.4源码是基于Hadoop-0.20.2-CDH3B4、Hbase-0.90.1-cdh3u0开发的,Hadoop-0.20.2-CDH3B4和现在的Hadoop-2.2.0完全不一样的设计,而且直接用Hadoop-0.20.2-CDH3B4会使得Flume-0.9.4不能和Hbase-0.96.0通信,都不能通信了,何谈整合!但是经过几天的奋战,我们终于通过修改Flume和Hadoop的部分源码达到了Flume-0.9.4和Hbase-0.96整合,今天就分享一下我们是怎么修改的。云凡教育大数据学院www.cloudyhadoop.com

考虑到篇幅的问题,已经将本文拆分为二,为你带来的不便深感抱歉!下面是两篇文章的链接:
Flume-0.9.4Hbase-0.96整合(1)Flume-0.9.4Hbase-0.96整合(2)

2、修改flume-core\src\main\java\org\apache\hadoop\io\FlushingSequenceFileWriter.java和RawSequenceFileWriter.java两个java类

因为在步骤一中我们用新版本的Hadoop替换了旧版本的Hadoop,而新版本Hadoop中的org.apache.hadoop.io.SequenceFile.Writer类和旧版本的org.apache.hadoop.io.SequenceFile.Writer类有些不一样。所以导致了FlushingSequenceFileWriter.java和RawSequenceFileWriter.java两个java类出现了部分的错误,解决方法如下:

(1)、需要修改Hadoop-2.2.0源码中的hadoop-2.2.0-src\hadoop-common-project\hadoop-common\src\main\java\org\apache\hadoop\io\SequenceFile.java类,在Writer类里面添加默认的构造函数:

1

Writer(){

 

2

    this.compress = CompressionType.NONE;

 

3

}

然后重新编译hadoop-common-project工程,将编译后的hadoop-common-2.2.0.jar替换之前的hadoop-common-2.2.0.jar
(2)、修改FlushingSequenceFileWriter.java和RawSequenceFileWriter.java
 这两个类中有错误,请用新版本Hadoop的相应API替换掉旧版本Hadoop的API,具体怎么修改,这就不不说了,如有需要的同学,可以邮件联系我(wyphao.2007@163.com)
(3)、修改com.cloudera.flume.handlers.seqfile中的SequenceFileOutputFormat类修改如下:

01

this(SequenceFile.getCompressionType(FlumeConfiguration.get()),

 

02

new DefaultCodec());

 

03

 

 

04

修改为

 

05

 

06

this(SequenceFile.getDefaultCompressionType(FlumeConfiguration.get()),

 

07

new DefaultCodec());

 

08

 

 

09

CompressionType compressionType = SequenceFile.getCompressionType(conf);

 

10

 

 

11

修改为

 

12

 

 

13

CompressionType compressionType = SequenceFile.getDefaultCompressionType(conf);

  3、重新编译Flume源码
  重新编译Flume源码(如何编译Flume源码?请参见本博客的Flume-0.9.4源码编译及一些编译出错解决方法》),并用编译之后的flume-core-0.9.4-cdh3u3.jar替换${FLUME_HOME}/lib中的flume-core-0.9.4-cdh3u3.jar类。删掉${FLUME_HOME}/lib/hadoop-core-0.20.2-cdh3u3.jar等有关Hadoop旧版本的包。
  4、修改${FLUME_HOME}/bin/flume启动脚本
仔细分析${FLUME_HOME}/bin/flume脚本,你会发现如下代码:

01

# put hadoop conf dir in classpath to include Hadoop

 

02

 # core-site.xml/hdfs-site.xml

 

03

 if [ -n "${HADOOP_CONF_DIR}" ]; then

04

CLASSPATH="${CLASSPATH}:${HADOOP_CONF_DIR}"

 

05

 elif [ -n "${HADOOP_HOME}" ] ; then

 

06

CLASSPATH="${CLASSPATH}:${HADOOP_HOME}/conf"

 

07

elif [ -e "/usr/lib/hadoop/conf" ] ; then

 

08

# if neither is present see if the CDH dir exists

 

09

CLASSPATH="${CLASSPATH}:/usr/lib/hadoop/conf";

 

10

HADOOP_HOME="/usr/lib/hadoop"

 

11

fi  # otherwise give up

 

12

 

 

13

 # try to load the hadoop core jars

 

14

 HADOOP_CORE_FOUND=false

 

15

 while true; do

 

16

if [ -n "$HADOOP_HOME" ]; then

 

17

HADCOREJARS=`find ${HADOOP_HOME}/hadoop-core*.jar ||  \

 

18

find ${HADOOP_HOME}/lib/hadoop-core*.jar ||  true`

 

19

if [ -n "$HADCOREJARS" ]; then

 

20

HADOOP_CORE_FOUND=true

 

21

CLASSPATH="$CLASSPATH:${HADCOREJARS}"

 

22

break;

 

23

fi

 

24

fi

 

25

 

 

26

HADCOREJARS=`find ./lib/hadoop-core*.jar 2> /dev/null || true`

 

27

if [ -n "$HADCOREJARS" ]; then

28

# if this is the dev environment then hadoop jar will

 

29

# get added as part of ./lib (below)

 

30

break

 

31

fi

 

32

 

 

33

# core jars may be missing, we'll check for this below

 

34

break

 

35

 done

  你会发现,这是Flume加载Hadoop旧版本的依赖包,在新版本的Hadoop根本就没有${HADOOP_HOME}/conf等文件夹,所以会出现Flume不能加载对新版本Hadoop的依赖。这里教你用最简单的方法来实现对新版本的Hbase和Hadoop的依赖,在${FLUME_HOME}/bin/flume脚本里面加入下面的CLASSPATH依赖:

1

CLASSPATH="/home/q/hbase/hbase-0.96.0-hadoop2/lib/*"

请注意hbase-0.96.0-hadoop2里面对hadoop的依赖,hbase-0.96.0-hadoop2里面对Hadoop的依赖包是2.1.0,用上面编译好的hadoop-common-2.2.0.jar替换${HBASE_HOME}/lib里面的hadoop-common-2.1.0.jar

5、如何和Hbase-0.96整合
  在flume-src\plugins\flume-plugin-hbasesink\src\main\java里面的添加自己的类(当然你完全可以自己创建一个新的maven工程)。如果需要和Hbase整合,必须继承EventSink.Base类,重写里面的方法(可以参照flume-src\plugins\flume-plugin-hbasesink\src\main\java\com\cloudera\flume\hbase\Attr2HBaseEventSink.java),写完之后需要重新编译flume-src\plugins\flume-plugin-hbasesink底下的类,打包成jar文件。然后将你写好的Hbase sink注册到Flume中,

  6、结束
  经过上面几步的配置,你的Flume-0.9.4就可以和Hbase-0.96整合了,祝你成功。详情请加入QQ:374152400 ,咨询课程顾问!

关注云凡教育微信公众号yfteach,第一时间获取公开课信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值