开启Spark学习之旅:VMware + CentOS 虚拟机配置指南

在大数据领域,Apache Spark 凭借其快速、通用的集群计算能力,成为众多开发者和数据科学家的首选工具。而搭建一个合适的学习环境,是深入掌握 Spark 的第一步。本文将详细介绍如何在 VMware 上安装 CentOS 虚拟机,并为 Spark 学习做好准备,确保你的学习之旅顺利启航

一. 前期准备

(一).  软件下载

1.  VMware Workstation Pro:这是一款功能强大的虚拟机软件,可在其官方网站下载最新版本,根据你的操作系统选择对应的安装包。

 

2.  CentOS 镜像文件:前往 CentOS 官方镜像站,选择适合你需求的版本。通常建议选择最新的稳定版本,如 CentOS 8。

 

(二).  系统要求

确保你的物理机具备足够的硬件资源。推荐配置为:至少 4GB 内存,20GB 可用硬盘空间,以及支持虚拟化技术的 CPU(需在 BIOS 中开启虚拟化选项)。

 

二.   VMware 安装与配置

 

1.  安装 VMware Workstation Pro:运行下载的安装包,按照安装向导的提示进行操作。在安装过程中,你可以选择安装路径和自定义一些设置,如是否创建桌面快捷方式等。

 

2.  创建新虚拟机:打开 VMware,点击“创建新的虚拟机”。在“新建虚拟机向导”中,选择“典型(推荐)”配置类型,然后点击“下一步”。

 

3.  安装来源:选择“安装程序光盘映像文件(ISO)”,浏览并选择你下载的 CentOS 镜像文件,接着点击“下一步”。

 

4.   客户机操作系统选择:在操作系统列表中,选择“Linux”,版本选择“CentOS 8 64 位”(根据你下载的镜像版本选择)。

 

5.  命名虚拟机并选择存储位置:为你的虚拟机取一个有意义的名字,如“Spark - CentOS”,并指定虚拟机文件的存储位置。确保存储位置有足够的可用空间。

 

6.  指定磁盘容量:默认设置为 20GB 磁盘空间,如果你计划在虚拟机中存储大量数据或安装多个软件,可以适当增大磁盘容量。同时,建议选择“将虚拟磁盘拆分成多个文件”,这样可以方便管理和迁移虚拟机。

 

7.  自定义硬件(可选):在这一步,你可以根据需要调整虚拟机的硬件配置,如增加内存、添加网络适配器等。对于 Spark 学习环境,建议至少分配 2GB 内存和 2 个 CPU 核心。完成设置后,点击“关闭”,然后点击“完成”,虚拟机创建完成。

 

三.  CentOS 安装与配置

 

  1. 启动虚拟机:在 VMware 主界面中,选中刚创建的虚拟机,点击“开启此虚拟机”。
  2. 进入安装界面:虚拟机启动后,会自动进入 CentOS 安装界面。选择“Install CentOS 8”,然后按下回车键。
  3. 语言选择:在安装语言选择界面,选择你熟悉的语言,如“中文(简体)”,点击“继续”。
  4. 安装信息摘要:在这个界面,你可以对安装进行一些基本设置,如日期和时间、键盘布局、安装源等。保持默认设置即可,点击“安装位置”。
  5. 磁盘分区:选择“自动分区”,让系统自动分配磁盘空间。如果你对分区有特定需求,也可以选择“手动分区”进行自定义设置。完成后,点击“完成”。
  6. 开始安装:返回安装信息摘要界面,点击“开始安装”。在安装过程中,需要设置 root 用户密码,并可以创建一个普通用户。设置完成后,等待安装完成。
  7. 重启虚拟机:安装完成后,点击“重启”。虚拟机重启后,会进入 CentOS 登录界面,使用你设置的用户名和密码登录系统。

四.  配置网络

 

  1. 查看网络配置:登录 CentOS 后,打开终端,输入命令 ip addr 查看当前网络配置。
  2. 设置静态 IP(可选):如果需要设置静态 IP,编辑网络配置文件。例如,对于以太网连接,编辑 /etc/sysconfig/network - scripts/ifcfg - ens33 (根据实际网卡名称修改)文件,将 BOOTPROTO 改为 static ,并添加 IPADDR 、 NETMASK 、 GATEWAY 和 DNS1 等配置项。修改完成后,保存文件并重启网络服务: systemctl restart network 。
  3. 测试网络连接:使用 ping 命令测试网络连接,如 ping www.baidu.com ,确保虚拟机可以正常访问互联网。

 

   四.  安装 Java

  1. 检查系统是否已安装 Java:在终端输入命令 java -version ,如果系统提示“command not found”,说明未安装 Java。
  2. 下载 Java 安装包:前往 Oracle 官方网站下载适合 CentOS 的 Java JDK 安装包,通常选择最新的 LTS 版本。
  3. 解压安装包:将下载的安装包解压到指定目录,如 /usr/local/java 。例如,使用命令 tar -zxvf jdk - 11.0.11_linux - x64_bin.tar.gz -C /usr/local/java 。
  4. 配置环境变量:编辑 /etc/profile 文件,在文件末尾添加以下内容:bash export JAVA_HOME=/usr/local/java/jdk - 11.0.11export PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar 
  5. 保存文件后,执行命令 source /etc/profile 使环境变量生效。
  6. 验证 Java 安装:再次输入 java -version 命令,查看 Java 版本信息,确认安装是否成功。 

    五.  安装 Spark

 

1.  下载 Spark 安装包:前往 Apache Spark 官方网站,下载适合你的 CentOS 版本和 Hadoop 版本的 Spark 安装包。例如,如果你使用的是 Hadoop 3.3.1,可以下载 Spark 3.2.1 版本。

 

2.   解压安装包:将下载的 Spark 安装包解压到指定目录,如 /usr/local/spark 。使用命令 tar -zxvf spark - 3.2.1 - bin - hadoop3.3.tgz -C /usr/local/spark 。

 

3.  配置 Spark 环境变量:编辑 /etc/profile 文件,在文件末尾添加以下内容:

bash

export SPARK_HOME=/usr/local/spark

export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

保存文件后,执行命令 source /etc/profile 使环境变量生效。

 

4.  配置 Spark 配置文件:进入 $SPARK_HOME/conf 目录,复制 spark - env.sh.template 文件为 spark - env.sh ,并编辑 spark - env.sh 文件,添加以下配置(根据实际情况修改):

bash

export JAVA_HOME=/usr/local/java/jdk - 11.0.11

export SPARK_MASTER_HOST=localhost

export SPARK_MASTER_PORT=7077

5.  启动 Spark:在终端输入命令 start - all.sh 启动 Spark 集群。启动成功后,可以通过浏览器访问 http://localhost:8080 查看 Spark 集群的 Web 界面。

 

通过以上步骤,你已经成功在 VMware + CentOS 虚拟机上搭建了 Spark 学习环境!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值