Zeppelin0.8.1上操作spark2.0(master使用yarn模式)

本文详细介绍了在Zeppelin0.8.1上配置和操作Spark2.0的方法,特别是在YARN模式下运行的任务设置。包括修改Spark解释器参数、执行Spark任务和SQL查询的具体步骤,以及遇到的问题和解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

@羲凡——只为了更好的活着

Zeppelin0.8.1上操作spark2.0(master使用yarn模式)

Hive解释器将被弃用并合并到JDBC解释器中。通过使用具有相同功能的JDBC解释器,可以使用Hive解释器。可结合官网查看如何操作 http://zeppelin.apache.org/docs/0.8.1/interpreter/spark.html

Zeppelin0.8.1的安装 https://blog.youkuaiyun.com/weixin_42003671/article/details/87010163 请参照我的这一篇博客,里面已经说明了一些Zeppelin操作spark的必要设置

1.登录8080界面后,点击右上角用户名进入interpreter

在这里插入图片描述

2.找到spark interpreter 查看并修改主要参数

Properties

namevalue
masteryarn-client(或者yarn-cluster)
zeppelin.spark.concurrentSQLtrue(默认是false)

最后,点击下方的 Save 按钮,保存退出

3.测试

a. %spark

%spark
import org.apache.spark.sql.SparkSession
import org.apache.spark.SparkContext
val inpath = "/aarontest/data/oozie/sparkshell/wc.txt"
val outpath = "/aarontest/data/oozie/sparkshell/wcoutpath"+s"${System.currentTimeMillis()}"
val rdd = sc.textFile(inpath).filter(_.nonEmpty).flatMap(_.split("\t")).map((_,1))
.reduceByKey(_+_).map(_.swap).sortByKey(ascending = false,numPartitions = 1).map(_.swap)
rdd.saveAsTextFile(outpath)
%spark
val map1: Map[Int, String] = Map((1,"aa"),(2,"bb"),(3,"cc"))
val map2 = Map(1 -> "dd", 2 -> "ee", 3 -> "gg")
println(map1.getOrElse(2,0))
println(map1.getOrElse(20,"default"))

截图如下
在这里插入图片描述
b. %sql

%sql
select * from aarontest.stu_info limit 3

截图如下
在这里插入图片描述

4.现象、疑问、求助

我发现在执行一个spark任务后,yarn的8088界面上就会有一个任务一直在执行状态,只有在重启Zeppelin或修改了spark interpreter 的时候才会消失,这是为什么呢?我想在执行完一个spark任务后就能看到它的日志,这个如何做到?哪位大神知道告知一下吧。
在这里插入图片描述

====================================================================

@羲凡——只为了更好的活着

若对博客中有任何问题,欢迎留言交流

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值