hadoop完全分布式搭建

最新推荐文章于 2024-01-16 16:20:50 发布

SweeneyZuo

最新推荐文章于 2024-01-16 16:20:50 发布

阅读量875

点赞数

CC 4.0 BY-SA版权

分类专栏： hadoop

本文链接：https://blog.youkuaiyun.com/Sweeneyzuo/article/details/83472971

hadoop 专栏收录该内容

10 篇文章

订阅专栏

本文详细介绍在CentOS环境下搭建Hadoop集群的过程，包括安装Linux、配置网络、关闭防火墙及SELinux、创建用户、安装JDK与Hadoop、配置环境变量、免密登录、同步时间、配置各节点、格式化Namenode、启动HDFS与YARN等关键步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、安装linux操作系统。本人的为CentOS6.8。(带不带图形化界面都无所谓)

2、配置网络，固定ip。本人一般采用nat模式。

3、关闭防火墙

老版本centos命令
----------------------------
查看防火墙状态
chkconfig iptables --list
chkconfig ip6tables --list
临时关闭防火墙（立即生效）
service iptalbe stop
service ip6talbe stop
永久关闭防火墙（重启生效）
chkconfig iptables off
chkconfig ip6tables off
----------------------------
新版centos命令
查看防火墙状态
firewall-cmd --state
临时关闭防火墙（立即生效）
systemctl stop firewalld.service
禁止firewall开机启动
systemctl disable firewalld.service

4、关闭selinux服务

# vi /etc/selinux/config
将下面“SELINUX=xxx”的xxx部分改为disabled

5、创建普通用户

添加用户
useradd 用户名
设置用户密码
passwd 用户名

如果来回切换用户麻烦，可以开启sudo

1.先切换到root用户
2.将/etc/sudoers文件的权限改为777
3.在此文件中的添加：用户名    ALL=(ALL)       ALL
4.将此文件权限改回440

6、修改/etc/hosts文件。

7、卸载系统自带jdk

查看已安装的jdk
sudo rpm -qa | grep java
卸载jdk
sudo rpm -e --nodeps 软件名称

8、安装jdk，本人将jdk-8u162-linux-x64.tar.gz压缩包解压在了/home/sweeney/soft/下。创建软连接。
解压缩
tar -zxvf jdk-8u162-linux-x64.tar.gz
创建软链接
ln -s jdk1.8.0_162/ jdk

9、安装hadoop，本人将压缩包hadoop-2.7.3.tar.gz解压在了/home/sweeney/soft/下。创建软连接。
解压缩
tar -zxvf hadoop-2.7.3.tar.gz
创建软连接
ln -s hadoop-2.7.3/ hadoop

10、配置环境变量。本人在~/.bashrc配置的用户变量。而在/etc/profile配置则为系统变量。
JAVA_HOME=/home/sweeney/soft/jdk
HADOOP_HOME=/home/sweeney/soft/hadoop
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME HADOOP_HOME PATH

11、检测是否成功安装

使环境变量生效
source ~/.bashrc
查看jdk是否成功安装
java -version
查看hadoop是否成功安装
hadoop version

12、配置免密登录

ssh-keygen -t rsa 产生id-rsa.pub公钥
mv ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys  改名为authorized_keys
chmod 600 ~/.ssh/authorized_keys  修改权限

13、关掉此虚拟机，克隆2个此虚拟机。

14、开启这三个虚拟机，修改主机名。
修改主机名
sudo vi /etc/sysconfig/network
使主机名立即生效
hostname 新主机名

15、配置除了被克隆的虚拟机的另外两台虚拟机的网络IP。可以参照第2步。

16、检测三台虚拟机的防火墙和SELINUX服务是否都关闭。如为关闭请按第3步和第4步进行操作。

17、对三台虚拟机进行同步时间设置。
ntpdate -u time.windows.com  联网下
hwclock  -w    同步到硬件时钟

18、每台机器分别测试免密登录
ssh slave1
ssh slave2
ssh master

19、修改core-site.xml配置文件

<configuration>
		<property>
			<name>fs.defaultFS</name>
			<value>hdfs://master:9000</value>
		</property>
		<property>
			<name>hadoop.tmp.dir</name>
			<value>/home/sweeney/soft/tmp</value>
		</property>
</configuration>

20、修改hdfs-site.xml配置文件

<configuration>
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>
</configuration>

21、修改mapred-site.xml（此文件不存在），可以将mapred-site.xml.template拷贝一份并重命名。
<configuration>
	<property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
	</property>
</configuration>

22、修改yarn-site.xml配置文件

<configuration>
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	<property>
		<!--指定resourcemanager所在主机-->
		<name>yarn.resourcemanager.hostname</name>
		<value>master</value>
	</property>
</configuration>

23、修改slaves
slave1
slave2

24、将上述修改后的core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml、slaves通过scp命令发送到其它节点。

scp ~/soft/hadoop/etc/hadoop/core-site.xml sweeney@slave1:~~/soft/hadoop/etc/hadoop/
scp ~/soft/hadoop/etc/hadoop/hdfs-site.xml sweeney@slave1:~~/soft/hadoop/etc/hadoop/
scp ~/soft/hadoop/etc/hadoop/mapred-site.xml sweeney@slave1:~~/soft/hadoop/etc/hadoop/
scp ~/soft/hadoop/etc/hadoop/yarn-site.xml sweeney@slave1:~~/soft/hadoop/etc/hadoop/
scp ~/soft/hadoop/etc/hadoop/slaves sweeney@slave1:~~/soft/hadoop/etc/hadoop/