Apache Zeppelin 虚拟机部署指南:使用Vagrant快速搭建开发环境

Apache Zeppelin 虚拟机部署指南:使用Vagrant快速搭建开发环境

zeppelin Web-based notebook that enables data-driven, interactive data analytics and collaborative documents with SQL, Scala and more. zeppelin 项目地址: https://gitcode.com/gh_mirrors/zeppelin1/zeppelin

概述

Apache Zeppelin 是一个强大的开源数据分析和可视化工具,支持多种编程语言和后端系统。对于开发者而言,快速搭建一个包含所有依赖的开发环境至关重要。本文将详细介绍如何使用Vagrant虚拟机技术快速部署一个预装所有核心依赖的Zeppelin开发环境。

环境准备

在开始之前,需要确保本地系统已安装以下三个关键组件:

  1. Vagrant - 用于创建和管理虚拟化开发环境
  2. VirtualBox - 提供虚拟机运行环境
  3. Ansible - 用于自动化配置虚拟机

详细安装步骤

Windows用户特别提示

如果使用Windows系统且尚未安装Python,需要先安装Python 2.7.x版本。

组件安装指南
  1. Vagrant安装:从官网下载对应操作系统的安装包并执行安装
  2. Ansible安装:通过pip工具安装
    sudo easy_install pip
    sudo pip install ansible
    ansible --version
    
    安装完成后,请确认版本号至少为1.9.2或更高
  3. VirtualBox安装:从官网下载并安装最新版本

创建Zeppelin开发虚拟机

完成上述准备工作后,只需简单几步即可创建开发环境:

  1. 进入Zeppelin项目中的/scripts/vagrant/zeppelin-dev目录
  2. 执行命令:vagrant up

等待命令执行完成后,使用vagrant ssh即可登录到虚拟机环境中。

快速启动选项

如果不需要从源码构建Zeppelin,可以直接在虚拟机中运行安装脚本:

curl -fsSL https://raw.githubusercontent.com/NFLabs/z-manager/master/zeppelin-installer.sh | bash

源码构建指南

获取源码

可以从两个途径获取Zeppelin源码:

  1. 主机克隆:在主机上克隆项目到/scripts/vagrant/zeppelin-dev目录,该目录会自动同步到虚拟机
  2. 虚拟机内克隆:直接在虚拟机内克隆项目

Vagrant默认会将项目目录同步到虚拟机的/vagrant路径下,因此构建时只需:

cd /vagrant/zeppelin

虚拟机环境配置

该虚拟机预装了以下组件:

  • Ubuntu Server 14.04 LTS
  • Node.js 0.12.7 + npm 2.11.3
  • Ruby 1.9.3及相关构建工具
  • Maven 3.3.9
  • Git和Unzip
  • OpenJDK 7
  • Python科学计算套件:pip、matplotlib、scipy、numpy、pandas
  • R语言及常用包:Knitr、devtools、ggplot2等

构建与运行

在虚拟机中执行以下命令构建并启动Zeppelin:

cd /zeppelin
./mvnw clean package -Pspark-1.6 -Phadoop-2.4 -DskipTests
./bin/zeppelin-daemon.sh start

构建完成后,在主机浏览器访问http://localhost:8080/即可使用Zeppelin。

高级配置

网络配置调整

默认配置使用端口转发,如需改为固定IP访问:

  1. 修改Vagrantfile,注释端口转发行
  2. 取消私有网络配置的注释
  3. 设置合适的IP地址
#config.vm.network "forwarded_port", guest: 8080, host: 8080
config.vm.network "private_network", ip: "192.168.51.52"

修改后执行vagrant haltvagrant up重启生效。

功能验证

Python环境测试

虚拟机已预装常用Python科学计算库,可通过以下代码验证:

%pyspark
import numpy
import scipy
import pandas
import matplotlib

print "numpy " + numpy.__version__
print "scipy " + scipy.__version__
print "pandas " + pandas.__version__
print "matplotlib " + matplotlib.__version__

R环境测试

虚拟机已预装R语言及常用包,可直接使用R教程笔记进行验证。

通过本文介绍的方法,开发者可以快速搭建一个功能完整的Zeppelin开发环境,专注于数据分析应用的开发而无需担心环境配置问题。

zeppelin Web-based notebook that enables data-driven, interactive data analytics and collaborative documents with SQL, Scala and more. zeppelin 项目地址: https://gitcode.com/gh_mirrors/zeppelin1/zeppelin

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

温玫谨Lighthearted

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值