搭建Hadoop VM集群

本文记录了在VM上搭建Hadoop分布式环境的过程,包括VM的创建、SSH无密码登录配置、Hadoop节点设置,以及遇到的问题和解决方法。在实际操作中,遇到datanode和tasktracker启动后立即停止的问题,通过对日志分析解决了异常。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

之前一直在单节点psudo-distributed模式下跑,觉得有必要试试搭建一个真正的distributed环境。期间参考了不少文章,这里做个小笔记。

VM创建

这里利用VMware创建一台VM做master,再链接克隆出一台VM做slave。碰到主要的问题有:1. 如何设置VM网络连接 2. 链接克隆slave VM后,如何修复网络配置。这已经在另外一篇文章中做了笔记。
master 192.168.15.131
slave 192.168.15.132


配置ssh无密码登录

每次启动master(运行bin/start-all.sh)时,创建每个deamon进程都提示输入密码,挺烦人的,最好配置ssh以无密码登录:
a. 对于namenode和jobtracker,需要配置master本身的ssh
yum install openssh-server.x86_64
ssh-keygen
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
b. 对于datanode和tasktracker,需要配置slave的ssh
scp root@192.168.15.131:~/.ssh/autorized_keys .
cat ./autorized_keys >> ~/.ssh/authorized_ke
### Hadoop 集群VMware 16.2.5 上的安装与配置指南 在 VMware 16.2.5 环境中搭建 Hadoop 集群需要经过多个步骤,包括虚拟机环境准备、网络配置、免密登录设置以及 Hadoop 的安装与配置。以下是详细的说明: #### 1. VMware 环境准备 确保 VMware 工具已正确安装,并创建至少三台虚拟机(例如:Hadoop1、Hadoop2 和 Hadoop3)。每台虚拟机应配置足够的 CPU、内存和磁盘空间以支持集群运行[^1]。 #### 2. 虚拟机克隆与网络配置 使用 VMware 的克隆功能复制主节点(Hadoop1)到其他节点(Hadoop2 和 Hadoop3)。为每个虚拟机分配静态 IP 地址,并确保所有节点可以通过主机名互相访问。编辑 `/etc/hosts` 文件以映射主机名与 IP 地址的关系: ```bash 192.168.1.101 hadoop1 192.168.1.102 hadoop2 192.168.1.103 hadoop3 ``` #### 3. 免密登录配置 在主节点(Hadoop1)生成 SSH 密钥对,并将其公钥分发到所有节点: ```bash ssh-keygen -t rsa ssh-copy-id hadoop2 ssh-copy-id hadoop3 ``` 验证免密登录是否成功: ```bash ssh hadoop2 ssh hadoop3 ``` 如果无需输入密码即可登录,则配置完成[^1]。 #### 4. JDK 安装 在所有节点上安装 Java 开发工具包(JDK)。可以使用以下命令安装 OpenJDK: ```bash sudo apt update sudo apt install openjdk-8-jdk ``` 确认 JDK 版本: ```bash java -version ``` #### 5. Hadoop 安装 下载并解压 Hadoop 安装包到指定目录: ```bash wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz tar -xvzf hadoop-3.3.1.tar.gz -C /usr/local/ ``` 将 Hadoop 添加到系统路径: ```bash export PATH=$PATH:/usr/local/hadoop-3.3.1/bin export PATH=$PATH:/usr/local/hadoop-3.3.1/sbin ``` #### 6. Hadoop 配置文件修改 编辑 Hadoop 的核心配置文件 `core-site.xml`、`hdfs-site.xml` 和 `mapred-site.xml`。例如,在 `core-site.xml` 中设置 NameNode 地址: ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop1:9000</value> </property> </configuration> ``` 在 `hdfs-site.xml` 中配置副本数: ```xml <configuration> <property> <name>dfs.replication</name> <value>2</value> </property> </configuration> ``` #### 7. 启动 Hadoop 集群 格式化 NameNode 并启动 HDFS 和 YARN 服务: ```bash hdfs namenode -format start-dfs.sh start-yarn.sh ``` 检查集群状态: ```bash jps ``` ### 注意事项 - 确保所有节点的时间同步。 - 配置防火墙规则以允许必要的端口通信。 - 根据实际需求调整 Hadoop 的配置参数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值