Apache Zeppelin在YARN集群上的部署与配置指南

章瑗笛

于 2025-06-07 09:01:11 发布

阅读量325

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_01195/article/details/148487299

Apache Zeppelin在YARN集群上的部署与配置指南

zeppelin Web-based notebook that enables data-driven, interactive data analytics and collaborative documents with SQL, Scala and more. 项目地址: https://gitcode.com/gh_mirrors/zeppelin2/zeppelin

概述

Apache Zeppelin是一个基于Web的交互式数据分析工具，支持多种编程语言和数据处理框架。本文将详细介绍如何将Zeppelin部署到现有YARN集群环境中，并配置相关组件使其能够充分利用集群资源。

环境准备

创建专用用户（可选但推荐）

为Zeppelin创建专用用户是一个良好的实践，这有助于隔离权限和资源管理：

useradd zeppelin
su - zeppelin
whoami  # 验证当前用户

系统要求

部署Zeppelin需要满足以下基本要求：

操作系统：CentOS 6.x/7.x、Ubuntu 14.x/16.x或Mac OSX
Java环境：JDK 1.7或更高版本
Hadoop客户端：与集群版本匹配的Hadoop客户端库
Spark：推荐1.6.x或2.x版本
网络连接：能够访问YARN集群

组件安装与配置

Hadoop客户端配置

Zeppelin需要与YARN集群通信，因此需要正确配置Hadoop客户端：

安装与集群版本匹配的Hadoop客户端
确保Hadoop配置文件（如core-site.xml、yarn-site.xml等）位于正确位置（通常为/etc/hadoop/conf）
验证Hadoop客户端版本：

hadoop version

Spark安装

Spark是Zeppelin的核心组件之一，安装时需注意：

下载与Hadoop版本兼容的Spark预编译包
解压到指定目录（如/usr/lib/spark）
确保Spark安装在Zeppelin节点上

重要提示：CDH4的Spark预编译包不支持YARN模式

Zeppelin安装

Zeppelin提供多种安装方式：

源码编译安装
二进制包直接部署
本文假设Zeppelin安装在/home/zeppelin/zeppelin目录下

Zeppelin核心配置

环境变量配置

创建并编辑zeppelin-env.sh配置文件：

cp conf/zeppelin-env.sh.template conf/zeppelin-env.sh

关键配置项示例：

export JAVA_HOME="/usr/java/jdk1.7.0_79"
export HADOOP_CONF_DIR="/etc/hadoop/conf"
export ZEPPELIN_JAVA_OPTS="-Dhdp.version=2.3.1.0-2574"
export SPARK_HOME="/usr/lib/spark"

其中hdp.version可通过以下命令获取：

hdp-select status hadoop-client | sed 's/hadoop-client - \(.*\)/\1/'

服务管理

启动Zeppelin

bin/zeppelin-daemon.sh start

启动成功后，可通过浏览器访问：http://[zeppelin-server-host-name]:8080

停止Zeppelin

bin/zeppelin-daemon.sh stop

解释器配置

Hive解释器配置

访问Zeppelin Web界面
导航至Interpreter配置页面
根据集群Hive配置设置以下参数：
- JDBC连接URL
- 用户名/密码
- 其他Hive特有参数

Spark解释器配置

关键配置参数：

| 参数名称 | 参数值 | 说明 | |---------|--------|------| | master | yarn-client | 使用YARN客户端模式 | | spark.driver.extraJavaOptions | -Dhdp.version=2.3.1.0-2574 | 驱动额外JVM参数 | | spark.yarn.am.extraJavaOptions | -Dhdp.version=2.3.1.0-2574 | AM额外JVM参数 |