MapReduce在Map和Reduce过程添加依赖包办法

最新推荐文章于 2023-07-05 20:00:00 发布

原创最新推荐文章于 2023-07-05 20:00:00 发布 · 2.4k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#MapReduce包依赖 #MapReduce

Hadoop 同时被 2 个专栏收录

3 篇文章

订阅专栏

MapREDUCE

1 篇文章

订阅专栏

本文详细介绍如何在MapReduce程序中加载外部依赖包，通过将依赖包上传至HDFS并添加到Job缓存中，实现在Map和Reduce阶段动态加载所需库，如Oracle Driver和Orc文件处理库。

MapReduce在map和reduce阶段添加依赖包办法

通常在MapReduce编程过程，大部分都是使用Hadoop jar的方式运行MapReduce程序，但是在开发map或reduce阶段中会需要引入外部的包，Hadoop集群环境并没有这些依赖包。

前言

比如Reduce数据写入Oracle需要添加Oracle的Driver依赖，还有写入Orc文件等需要orc-mapreduce、orc-core等包的依赖，可以在集群中把这些包拷贝到集群环境下，但是这样Yarn的NodeManager全部节点都是添加，这样是比较费劲的，此文章介绍更好的办法解决此类问题。

实现原理

在Job提交前，把相关的包添加到JOB的缓存中，并把依赖包上传到HDFS目录下，这样就可以有效长久的解决此类问题.

实现步骤

例:MapReduce读写ORC文件，Hadoop集群环境并没有MapReduceORC相关的包。

1. 把依赖包拷贝到Linux本节点/opt/bigdata/lib目录下，如下图

2. 把相关依赖包上传到集群的HDFS目录下，如/apps/hive/libs目录下，命令如下

hadoop fs -copyFromLocal /opt/bigdata/lib/* /apps/hive/libs/

3. 在MapReduce的Driver中添加这些依赖到Job缓存中

Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
...
...
...
String depJarPath = "/app/hive/libs/";
String depJarNames = "orc-mapreduce-1.2.1.jar:orc-core-1.2.1.jar:hive-storage-api-2.1.1-pre-orc.jar:aircompressor-0.3.jar";
for(String depJarName : depJarNames.split(":")){
   job.addFileToClassPath(new Path(depJarPath + depJarName))
}
...

这样在MapReduce运行Map和Reduce阶段都会加载这几个依赖包。