整个系列的内容包括:
(下面所有截图均用SecureCRT远程登录连接显示)
所需工具和环境:VMWare、三台centos虚拟机、SecureCRT(或者xshell等类似远程登录工具)
在 Hadoop 的完全分布式集群模式中,集群中的各个节点分布在多台物理机器上,实现真正的分布式计算。这种模式适用于大规模数据处理的生产环境,能够充分利用多台机器的资源,实现高效的数据存储和处理。
在完全分布式模式中,Hadoop 主要包含以下组件:
-
HDFS(分布式文件系统):负责数据的分布式存储。NameNode 管理文件系统的元数据,多个 DataNode 分布式地存储数据块,并通过复制机制提高数据可靠性。
-
YARN(资源调度和管理系统):负责计算资源的分配和任务管理。ResourceManager 管理集群的计算资源,NodeManager 在各节点上负责容器资源的分配和任务执行。
-
MapReduce:用于分布式数据处理的编程模型,通过将任务拆分成多个 map 和 reduce 操作,提升大数据处理效率。
一、集群配置
集群部署规划
配置core-site.xml
cd /export/server/hadoop-3.3.0/sbin/
vim core-site.xml(将下面代码配置进core-site.xml,如果前面课程已经配置了的话可以不用再配置这一步)
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop:8020</value>
</property>
<!-- 设置Hadoop本地保存数据路径 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/export/data/hadoop-3.3.0</value>
</property>
</configuration>
配置hdfs-site.xml
vim hdfs-site.xml(将下面代码配置进hdfs-site.xml,指定secondary namenode)
将之前的配置
重新改为
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop2:9868</value>
</property>
配置yarn-site.xml
vim yarn-site.xml(将下面代码配置进yarn-site.xml,学生如果前面课程已经配置了的话可以不用再配置这一步)
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop</value>
</property>
配置mapred-site.xml
vim mapred-site.xml(将下面代码配置进mapred -site.xml,学生如果前面课程已经配置了的话可以不用再配置这一步)
<!-- 设置MR程序默认运行模式:yarn集群模式 local本地模式 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
配置workers
将workers里面的内容改为
hadoop
hadoop2
hadoop3
在集群上分发配置好的Hadoop配置文件
第一种方法:
scp -r /export/server/ root@hadoop2:/export/
scp -r /export/server/ root@hadoop3:/export/
第二种方法:
利用实战系列(四)中的xsync脚本进行分发
xsync hadoop/
至此Hadoop完全分布式集群模式搭建完成,接下来我们会在这个集群进行后续操作和教学!