在大数据领域,Apache Spark 凭借其快速、通用的集群计算能力,成为众多开发者和数据科学家的首选工具。而搭建一个合适的学习环境,是深入掌握 Spark 的第一步。本文将详细介绍如何在 VMware 上安装 CentOS 虚拟机,并为 Spark 学习做好准备,确保你的学习之旅顺利启航
一. 前期准备
(一). 软件下载
1. VMware Workstation Pro:这是一款功能强大的虚拟机软件,可在其官方网站下载最新版本,根据你的操作系统选择对应的安装包。
2. CentOS 镜像文件:前往 CentOS 官方镜像站,选择适合你需求的版本。通常建议选择最新的稳定版本,如 CentOS 8。
(二). 系统要求
确保你的物理机具备足够的硬件资源。推荐配置为:至少 4GB 内存,20GB 可用硬盘空间,以及支持虚拟化技术的 CPU(需在 BIOS 中开启虚拟化选项)。
二. VMware 安装与配置
1. 安装 VMware Workstation Pro:运行下载的安装包,按照安装向导的提示进行操作。在安装过程中,你可以选择安装路径和自定义一些设置,如是否创建桌面快捷方式等。
2. 创建新虚拟机:打开 VMware,点击“创建新的虚拟机”。在“新建虚拟机向导”中,选择“典型(推荐)”配置类型,然后点击“下一步”。
3. 安装来源:选择“安装程序光盘映像文件(ISO)”,浏览并选择你下载的 CentOS 镜像文件,接着点击“下一步”。
4. 客户机操作系统选择:在操作系统列表中,选择“Linux”,版本选择“CentOS 8 64 位”(根据你下载的镜像版本选择)。
5. 命名虚拟机并选择存储位置:为你的虚拟机取一个有意义的名字,如“Spark - CentOS”,并指定虚拟机文件的存储位置。确保存储位置有足够的可用空间。
6. 指定磁盘容量:默认设置为 20GB 磁盘空间,如果你计划在虚拟机中存储大量数据或安装多个软件,可以适当增大磁盘容量。同时,建议选择“将虚拟磁盘拆分成多个文件”,这样可以方便管理和迁移虚拟机。
7. 自定义硬件(可选):在这一步,你可以根据需要调整虚拟机的硬件配置,如增加内存、添加网络适配器等。对于 Spark 学习环境,建议至少分配 2GB 内存和 2 个 CPU 核心。完成设置后,点击“关闭”,然后点击“完成”,虚拟机创建完成。
三. CentOS 安装与配置
- 启动虚拟机:在 VMware 主界面中,选中刚创建的虚拟机,点击“开启此虚拟机”。
- 进入安装界面:虚拟机启动后,会自动进入 CentOS 安装界面。选择“Install CentOS 8”,然后按下回车键。
- 语言选择:在安装语言选择界面,选择你熟悉的语言,如“中文(简体)”,点击“继续”。
- 安装信息摘要:在这个界面,你可以对安装进行一些基本设置,如日期和时间、键盘布局、安装源等。保持默认设置即可,点击“安装位置”。
- 磁盘分区:选择“自动分区”,让系统自动分配磁盘空间。如果你对分区有特定需求,也可以选择“手动分区”进行自定义设置。完成后,点击“完成”。
- 开始安装:返回安装信息摘要界面,点击“开始安装”。在安装过程中,需要设置 root 用户密码,并可以创建一个普通用户。设置完成后,等待安装完成。
- 重启虚拟机:安装完成后,点击“重启”。虚拟机重启后,会进入 CentOS 登录界面,使用你设置的用户名和密码登录系统。
四. 配置网络
- 查看网络配置:登录 CentOS 后,打开终端,输入命令 ip addr 查看当前网络配置。
- 设置静态 IP(可选):如果需要设置静态 IP,编辑网络配置文件。例如,对于以太网连接,编辑 /etc/sysconfig/network - scripts/ifcfg - ens33 (根据实际网卡名称修改)文件,将 BOOTPROTO 改为 static ,并添加 IPADDR 、 NETMASK 、 GATEWAY 和 DNS1 等配置项。修改完成后,保存文件并重启网络服务: systemctl restart network 。
- 测试网络连接:使用 ping 命令测试网络连接,如 ping www.baidu.com ,确保虚拟机可以正常访问互联网。
四. 安装 Java
- 检查系统是否已安装 Java:在终端输入命令 java -version ,如果系统提示“command not found”,说明未安装 Java。
- 下载 Java 安装包:前往 Oracle 官方网站下载适合 CentOS 的 Java JDK 安装包,通常选择最新的 LTS 版本。
- 解压安装包:将下载的安装包解压到指定目录,如 /usr/local/java 。例如,使用命令 tar -zxvf jdk - 11.0.11_linux - x64_bin.tar.gz -C /usr/local/java 。
- 配置环境变量:编辑 /etc/profile 文件,在文件末尾添加以下内容:bash export JAVA_HOME=/usr/local/java/jdk - 11.0.11export PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
- 保存文件后,执行命令 source /etc/profile 使环境变量生效。
- 验证 Java 安装:再次输入 java -version 命令,查看 Java 版本信息,确认安装是否成功。
五. 安装 Spark
1. 下载 Spark 安装包:前往 Apache Spark 官方网站,下载适合你的 CentOS 版本和 Hadoop 版本的 Spark 安装包。例如,如果你使用的是 Hadoop 3.3.1,可以下载 Spark 3.2.1 版本。
2. 解压安装包:将下载的 Spark 安装包解压到指定目录,如 /usr/local/spark 。使用命令 tar -zxvf spark - 3.2.1 - bin - hadoop3.3.tgz -C /usr/local/spark 。
3. 配置 Spark 环境变量:编辑 /etc/profile 文件,在文件末尾添加以下内容:
bash
export SPARK_HOME=/usr/local/spark
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
保存文件后,执行命令 source /etc/profile 使环境变量生效。
4. 配置 Spark 配置文件:进入 $SPARK_HOME/conf 目录,复制 spark - env.sh.template 文件为 spark - env.sh ,并编辑 spark - env.sh 文件,添加以下配置(根据实际情况修改):
bash
export JAVA_HOME=/usr/local/java/jdk - 11.0.11
export SPARK_MASTER_HOST=localhost
export SPARK_MASTER_PORT=7077
5. 启动 Spark:在终端输入命令 start - all.sh 启动 Spark 集群。启动成功后,可以通过浏览器访问 http://localhost:8080 查看 Spark 集群的 Web 界面。
通过以上步骤,你已经成功在 VMware + CentOS 虚拟机上搭建了 Spark 学习环境!