完全分布式模式介绍
完全分布式,指的是在真实环境下,使⽤多台机器,共同配合,来构建⼀个完整的分布式⽂件系统。
在真实环境中,hdfs中的相关守护进程也会分布在不同的机器中,⽐如:
-1. namenode守护进程尽可能的单独部署在⼀台硬件性能相对来说⽐较好的机器中。
-2. 其他的每台机器上都会部署⼀个datanode守护进程,⼀般的硬件环境即可。
-3. secondarynamenode守护进程最好不要和namenode在同⼀台机器上。
守护进程布局
我们搭建hdfs的完全分布式,顺便搭建⼀下yarn。hdfs和yarn的相关守护进程的布局如下:
qianfeng01: namenode,datanode,ResourceManager,nodemanager
qianfeng02: datanode,nodemanager,secondarynamenode
qianfeng03: datanode,nodemanager
完全分布式搭建环境准备
- 总纲
-1. 三台机器的防⽕墙必须是关闭的.
-2. 确保三台机器的⽹络配置畅通(NAT模式,静态IP,主机名的配置)
-3. 确保/etc/hosts⽂件配置了ip和hostname的映射关系
-4. 确保配置了三台机器的免密登陆认证(克隆会更加⽅便)
-5. 确保所有机器时间同步
-6. jdk和hadoop的环境变量配置
部分步骤省略
配置/etc/hosts⽂件
root@qianfeng01 ~]# vi /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4localhost4.localdomain4
::1 localhost localhost.localdomain localhost6localhost6.localdomain6
192.168.10.101 qianfeng01 #添加本机的静态IP和本机的主机名之间的映射关系
192.168.10.102 qianfeng02
192.168.10.103 qianfeng03
Hadoop的配置⽂件
- 在完全分布式集群的配置中,需要配置的是4个配置⽂件
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
- 这⼏个配置⽂件有默认的配置,命名为default
core-default.xml
hdfs-default.xml
mapred-default.xml
yarn-default.xml
- 我们可以将默认的配置⽂件找出来,看看默认的配置
[root@qianfeng01 share]# cd /usr/local/hadoop/share
[root@qianfeng01 share]# find -name "*-default.xml" -exec cp {} ~/defaultXml \;
- 属性的优先级
代码中配置的属性 > *-site.xml > *-default.xml
完全分布式配置
- 配置core-site.xml
<configuration>
<!-- hdfs的地址名称:schame,ip,port-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://qianfeng01:8020</value>
</property>
<!-- hdfs的基础路径,被其他属性所依赖的⼀个基础路径 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop2.7/tmp</value>
</property>
</configuration>
- 配置hdfs-site.xml
<configuration>
<!-- namenode守护进程管理的元数据⽂件fsimage存储的位置-->
<property>
<name>dfs.namenode.name.dir</name>
<value>file://${hadoop.tmp.dir}/dfs/name</value>
</property>
<!-- 确定DFS数据节点应该将其块存储在本地⽂件系统的何处-->
<property>
<name>dfs.datanode.data.dir</name>
<value>file://${hadoop2.7.tmp.dir}/dfs/data</value>
</property>
<!-- 块的副本数-->
<property>
<name>dfs.replication</name>

最低0.47元/天 解锁文章
1167

被折叠的 条评论
为什么被折叠?



