基于Centos7和Hadoop3.1.3搭建完全分布式集群（2）

最新推荐文章于 2024-09-15 12:00:00 发布

原创

最新推荐文章于 2024-09-15 12:00:00 发布 · 1.1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #大数据

本文详细介绍如何在Centos7环境中搭建Hadoop3.1.3的完全分布式集群，包括环境配置、集群部署、启动及测试等关键步骤。

基于Centos7和Hadoop3.1.3搭建完全分布式集群（2）

一、搭建完全分布式集群运行模式

分析：
1）准备3台客户机（关闭防火墙、静态ip、主机名称）
2）安装JDK
3）配置环境变量
4）安装Hadoop
5）配置环境变量
6）配置集群
7）单点启动
8）配置ssh
9）群起并测试集群

二、相关环境配置

虚拟机准备、JDK、HADOOP安装配置详见基于Centos7和Hadoop3.1.3搭建完全分布式集群(1)----虚拟机环境准备篇

2.1 编写集群分发脚本xsync

1）scp（secure copy）安全拷贝

（1）scp定义：
scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）
（2）基本语法

scp    -r          $pdir/$fname              $user@hadoop$host:$pdir/$fname
命令   递归       要拷贝的文件路径/名称    目的用户@主机:目的路径/名称

2）rsync远程同步工具

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。
（1）基本语法

rsync    -av       $pdir/$fname              $user@hadoop$host:$pdir/$fname
命令   选项参数   要拷贝的文件路径/名称    目的用户@主机:目的路径/名称

  选项参数说明

选项	功能
-a	归档拷贝
-v	显示复制过程

3）xsync集群分发脚本

（1）需求：循环复制文件到所有节点的相同目录下
（2）需求分析：
（a）rsync命令原始拷贝：

rsync  -av     /opt/module  		 root@hadoop103:/opt/

（b）期望脚本：

xsync要同步的文件名称

（c）说明：在/home/hadoop/bin这个目录下存放的脚本，hadoop用户可以在系统任何地方直接执行。
（3）脚本实现
（a）在/home/hadoop目录下创建xsync文件

	cd /home/hadoop
	vim xsync

在该文件中编写如下代码

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
  echo ====================  $host  ====================
  #3. 遍历所有目录，挨个发送
  for file in $@
  do

    #4 判断文件是否存在
    if [ -e $file ]
    then
      #5. 获取父目录
      pdir=$(cd -P $(dirname $file); pwd)
      #6. 获取当前文件的名称
      fname=$(basename $file)
      ssh $host "mkdir -p $pdir"
      rsync -av $pdir/$fname $host:$pdir
    else
      echo $file does not exists!
    fi
  done
done

（b）修改脚本 xsync 具有执行权限

	chmod +x xsync

（c）将脚本移动到/bin中，以便全局调用

	sudo mv xsync /bin/

（d）测试脚本

	sudo xsync /bin/xsync

2.2 配置SSH无密登录

1）配置ssh
（1）基本语法

ssh另一台电脑的ip地址

（2）ssh连接时出现Host key verification failed的解决方法

ssh hadoop103

出现：

The authenticity of host '192.168.1.103 (192.168.1.103)' can't be established.
RSA key fingerprint is cf:1e:de:d7:d0:4c:2d:98:60:b4:fd:ae:b1:2d:ad:06.
Are you sure you want to continue connecting (yes/no)?

（3）解决方案如下：直接输入yes

2）无密钥配置

（1）免密登录原理
在这里插入图片描述

（2）生成公钥和私钥：

ssh-keygen -t rsa

然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

（3）将公钥拷贝到要免密登录的目标机器上

ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104

注意：
还需要在hadoop102上采用root账号，配置一下无密登录到hadoop102、hadoop103、hadoop104；
还需要在hadoop103上采用hadoop账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。

3）.ssh文件夹下（~/.ssh）的文件功能解释

known_hosts	记录ssh访问过计算机的公钥(public key)
id_rsa	生成的私钥
id_rsa.pub	生成的公钥
authorized_keys	存放授权过的无密登录服务器公钥

三、集群配置

1）集群部署规划

注意：NameNode和SecondaryNameNode不要安装在同一台服务器
注意：ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。

2）配置集群
（1）核心配置文件
配置core-site.xml

cd $HADOOP_HOME/etc/hadoop
vim core-site.xml

文件内容如下：

最低0.47元/天解锁文章