spark获取hadoop服务token

用户在YARN-cluster模式下提交Spark作业时遇到卡顿,原因在于作业试图获取HBase的安全令牌,尽管作业逻辑并未涉及HBase。Spark在Kerberos环境中会自动获取相关服务令牌,解决办法是提交作业时禁用HBase令牌获取。

问题现象

通过yarn-cluster模式提交spark作业,客户端日志一直卡在submit app,没有运行

问题排查

1.查看yarn app日志

appid已生成,通过yarn查看app状态为等待am运行。具体查看am日志发现其一直在尝试访问hbase,尝试了36次后失败(集群hbase服务已正常停止)
在这里插入图片描述

问题:作业逻辑中不含hbase的相关内容,为什么会去访问hbase?

2.问题分析与原因

分析:
通过上面截图的堆栈信息查看从obtainDeletionTokens方法到HBaseDelegationTokenProvider的obtainDeletionTokens方法,说明这里是去尝试获取hbase的安全令牌。
(hbase的token获取的用户需要具有hbase:meta表的exec权限)

原因:
spark 官方文档

  • 在官网的文档描述:kerberos环境中,spark app在认证的时候,可能会获取hdfs、hive、hbase等服务的安全令牌。
  • 获取hbase的条件:hbase位于集群classpath,同时集群hbase开启了kerberos认证。
  • 所以 我们想跳过这个过程,需要提交作业时传入spark.yarn.security.credentials.hbase.enabled=false
当然可以!以下是使用SparkHadoop编写的一个简单示例代码。这个示例代码展示了如何读取一个文本文件并统计每个单词出现的次数。 ### 使用HadoopSpark的Word Count示例 #### 1. Hadoop Word Count 示例 首先,我们来看一下使用Hadoop编写的Word Count示例。 ```java import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class WordCount { public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); @Override public void map(Object key, Text value, Context context) throws IOException, InterruptedException { StringTokenizer itr = new StringTokenizer(value.toString()); while (itr.hasMoreTokens()) { word.set(itr.nextToken()); context.write(word, one); } } } public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> { private IntWritable result = new IntWritable(); @Override public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "word count"); job.setJarByClass(WordCount.class); job.setMapperClass(TokenizerMapper.class); job.setCombinerClass(IntSumReducer.class); job.setReducerClass(IntSumReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } } ``` #### 2. Spark Word Count 示例 接下来,我们来看一下使用Spark编写的Word Count示例。 ```python from pyspark import SparkConf, SparkContext # 初始化Spark配置 conf = SparkConf().setAppName("WordCount") sc = SparkContext(conf=conf) # 读取输入文件 input_file = "hdfs://path/to/input/file.txt" text_file = sc.textFile(input_file) # 计算词频 counts = text_file.flatMap(lambda line: line.split()) \ .map(lambda word: (word, 1)) \ .reduceByKey(lambda a, b: a + b) # 保存结果到HDFS output_path = "hdfs://path/to/output/directory" counts.saveAsTextFile(output_path) # 停止Spark上下文 sc.stop() ``` ### 说明 1. **Hadoop Word Count**: - `TokenizerMapper` 类负责将每行文本拆分成单词,并输出每个单词及其计数为1。 - `IntSumReducer` 类负责将相同单词的计数相加,最终输出每个单词及其总数。 - `main` 方法中配置了Job并指定了输入和输出路径。 2. **Spark Word Count**: - 使用 `SparkContext` 创建Spark上下文。 - `flatMap` 将每行文本拆分成单词。 - `map` 将每个单词映射为 (word, 1) 形式的键值对。 - `reduceByKey` 对相同单词的计数进行聚合。 - 最后将结果保存到指定的HDFS路径。 希望这些示例对你有帮助!如果有任何问题,请随时提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值