Hadoop中的Yarn的Tool接口案例、Yarn 案例实操(四)

本文详细介绍了如何在Hadoop YARN环境中使用自定义的Tool接口进行WordCount程序的开发,并演示了如何实现动态参数传递。通过Maven项目构建,从配置文件到部署jar包,一步步实操,包括在HDFS上准备输入文件和提交Job。重点在于展示如何利用Tool接口扩展程序的灵活性。

17. Yarn 案例实操

17.4 Yarn的Tool接口案例

17.4.1 回顾

[summer@hadoop102 hadoop-3.1.3]$ hadoop jar wc.jar com.summer.mapreduce.wordcount2.WordCountDriver /testinput /testoutput/output1

在这里插入图片描述期望可以动态传参,结果报错,误认为是第一个输入参数。

[summer@hadoop102 hadoop-3.1.3]$ hadoop jar wc.jar com.summer.mapreduce.wordcount1.WordCountDriver -Dmapreduce.job.queuename=root.test /testinput /testoutput/output1

在这里插入图片描述

17.4.2 需求

自己写的程序也可以动态修改参数。编写Yarn的Tool接口。

17.4.3 具体步骤

17.4.3.1 新建Maven项目YarnDemo,pom如下
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.summer</groupId>
    <artifactId>YarnDemo</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.1.3</version>
        </dependency>
    </dependencies>
</project>

在这里插入图片描述
添加依赖后记得刷新一下

17.4.3.2 新建com.summer.yarn包名

在这里插入图片描述

17.4.3.3 创建类WordCount并实现Tool接口

在这里插入图片描述

package com.summer.yarn;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.yarn.webapp.hamlet2.Hamlet;

import java.io.IOException;

/**
 * @author Redamancy
 * @create 2022-10-15 15:00
 */
public class WordCount implements Tool {
    private Configuration conf;

    @Override
    public int run(String[] args) throws Exception {
        Job job = Job.getInstance(conf);

        job.setJarByClass(WordCountDriver.class);

        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        return job.waitForCompletion(true) ? 0 : 1;
    }

    @Override
    public void setConf(Configuration configuration) {
        this.conf = configuration;
    }

    @Override
    public Configuration getConf() {
        return conf;
    }

    // maper
    public static class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
        private IntWritable outV = new IntWritable(1);
        private Text outK = new Text();

        @Override
        protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {
            String line = value.toString();
            String[] words = line.split(" ");
            for (String word : words) {
                outK.set(word);

                context.write(outK, outV);
            }
        }
    }

    //reducer
    public static class WordCountReducer extends Reducer<Text, IntWritable,Text, IntWritable>{
        private IntWritable outV = new IntWritable();

        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable value : values) {
                sum += value.get();
            }
            outV.set(sum);

            context.write(key, outV);
        }
    }
}

17.4.3.4 新建WordCountDriver

在这里插入图片描述

package com.summer.yarn;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.util.Arrays;

/**
 * @author Redamancy
 * @create 2022-10-15 15:25
 */
public class WordCountDriver {

    private static Tool tool;

    public static void main(String[] args) throws Exception {
        //1 创建配置文件
        Configuration conf = new Configuration();

        //2 判断是否有Tool接口

        switch (args[0]){
            case "wordcount":
                tool = new WordCount();
                break;
            default:
                throw new RuntimeException("no such tool: " + args[0]);
        }
        //3 用Tool执行程序
        //Arrays.copyOfRange将老数组的元素放到新元素数组里面
        int run = ToolRunner.run(conf, tool, Arrays.copyOfRange(args, 1, args.length));

        System.exit(run);
    }
}

17.4.3.5 将包进行打包

在这里插入图片描述点击reload from Disk进行刷新

17.4.3.6 将jar包上传到Linux里

在这里插入图片描述
在这里插入图片描述将这个复制到桌面
在这里插入图片描述
改名为YarnDemo,然后进行上传到Linux上

在这里插入图片描述将jar包拖拽到XShell里面

在这里插入图片描述

17.4.4 在HDFS上准备输入文件,假设为/testinput目录,向集群提交该Jar包

[summer@hadoop102 hadoop-3.1.3]$ yarn jar YarnDemo.jar com.summer.yarn.WordCountDriver wordcount /testinput /testoutputoutput1

在这里插入图片描述在这里插入图片描述

  注意此时提交的3个参数,第一个用于生成特定的Tool,第二个和第三个为输入输出目录。此时如果我们希望加入设置参数,可以在wordcount后面添加参数,例如:

[summer@hadoop102 hadoop-3.1.3]$ yarn jar YarnDemo.jar com.summer.yarn.WordCountDriver wordcount -Dmapreduce.job.queuename=root.test /testinput /testoutput/output1

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

注:以上操作全部做完过后,快照回去或者手动将配置文件修改成之前的状态,因为本身资源就不够,分成了这么多,不方便以后测试。

### Hadoop YARN导出任务中的IOException问题分析 在Hadoop YARN环境中,`/tmp/hadoop-yarn/staging`目录的所有权错误通常会导致`IOException`。此问题可能源于用户权限配置不当或HDFS中相关目录的权限设置不正确[^1]。以下是针对该问题的详细分析和解决方案: #### 1. 权限配置问题 YARN的staging目录用于存储作业的临时文件和元数据。如果Hive用户(或其他提交作业的用户)没有对该目录的写入权限,则会引发`IOException`。通常,staging目录应由`yarn`用户或具有适当权限的用户创建,并确保其他用户能够访问和写入[^2]。 #### 2. 检查HDFS权限 可以通过以下命令检查`/tmp/hadoop-yarn/staging`目录的权限: ```bash hdfs dfs -ls /tmp/hadoop-yarn/staging ``` 如果输出显示目录的所有者不是当前运行YARN服务的用户(如`yarn`),或者权限不足以允许其他用户写入,则需要调整权限[^3]。 #### 3. 修改目录权限 如果发现权限不足,可以使用以下命令修改目录的所有权和权限: ```bash # 将目录所有权更改为yarn用户 hdfs dfs -chown yarn:hadoop /tmp/hadoop-yarn/staging # 设置适当的权限以允许写入 hdfs dfs -chmod 770 /tmp/hadoop-yarn/staging ``` #### 4. 配置文件检查 确保Hadoop配置文件(如`core-site.xml`和`yarn-site.xml`)中与staging目录相关的参数正确设置。例如,`yarn.nodemanager.local-dirs`和`yarn.nodemanager.log-dirs`应指向有效的本地路径[^4]。 #### 5. Hive特定问题 当使用Hive进行导出作时,可能会遇到额外的权限问题。确保Hive用户的主目录存在于HDFS中,并且其权限设置正确: ```bash # 创建Hive用户的主目录 hdfs dfs -mkdir -p /user/hive # 设置Hive用户的主目录权限 hdfs dfs -chown hive:hive /user/hive ``` #### 6. 日志排查 通过检查YARN日志和HDFS日志,可以进一步定位问题的根本原因。日志文件通常位于以下路径: - YARN日志:`$HADOOP_LOG_DIR/yarn-yarn-resourcemanager-*.log` - HDFS日志:`$HADOOP_LOG_DIR/hdfs-hdfs-namenode-*.log` #### 示例代码:检查和修复权限 以下脚本可以帮助自动检查和修复`/tmp/hadoop-yarn/staging`目录的权限问题: ```bash #!/bin/bash STAGING_DIR="/tmp/hadoop-yarn/staging" OWNER="yarn:hadoop" PERMISSIONS="770" # 检查目录是否存在 if hdfs dfs -test -d $STAGING_DIR; then echo "Directory exists: $STAGING_DIR" else echo "Creating directory: $STAGING_DIR" hdfs dfs -mkdir -p $STAGING_DIR fi # 设置所有权 echo "Setting owner to $OWNER for $STAGING_DIR" hdfs dfs -chown $OWNER $STAGING_DIR # 设置权限 echo "Setting permissions to $PERMISSIONS for $STAGING_DIR" hdfs dfs -chmod $PERMISSIONS $STAGING_DIR ``` ### 结论 通过上述方法,可以有效解决Hadoop YARN导出任务中的`IOException`问题,特别是与`/tmp/hadoop-yarn/staging`目录所有权相关的错误。确保HDFS权限、YARN配置以及Hive用户权限均正确设置是关键[^5]。
评论 28
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Redamancy_06

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值