docker搭建hadoop集群 个人总结

本文详细介绍Hadoop集群的搭建步骤,包括Ubuntu环境的准备、Java及Hadoop配置,并通过Docker创建三个容器来实现Master-Slave架构。此外,还分享了在配置过程中遇到的问题及解决方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.搭建过程

https://dblab.xmu.edu.cn/blog/1233/
https://www.cnblogs.com/rmxd/p/12051866.html#_label4
按照这两篇文章即可,总结来说 pull ubuntu,进入系统,配置java、hadoop,保存镜像。然后根据这个镜像启动三个容器master,slave1,slave2,在master上配置相关信息。

2.注意的踩坑点(与两篇文章有出入):

mapred-site.xml 如下配置

 <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
 </property>
<property>
  <name>yarn.app.mapreduce.am.env</name>
  <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
</property>
<property>
  <name>mapreduce.map.env</name>
  <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
</property>
<property>
  <name>mapreduce.reduce.env</name>
  <value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
</property>
</configuration>

start-dfs.sh stop-dfs.sh 首部加入如下属性

HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs  #hadoop3.0后使用该名称
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

start-yarn.sh stop-yarn.sh首部加入如下属性

YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

容器重启后,配置的hosts文件中的修改会丢失

原因见链接: https://blog.youkuaiyun.com/Lekaor/article/details/127442047,需要重新配置一遍或者在网上找方法去固定ip。

运行程序

把程序在本地打成jar包,传到容器内(ubuntu)(docker cp 命令)。把数据上传到容器内,再上传到 hdfs 上。
hadoop jar 执行程序

如何在浏览器访问

使用 docker 进行端口映射 8808 和 50070,即可在启动集群后在本地浏览器访问

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值