Centos安装Hadoop集群

最新推荐文章于 2025-02-15 20:02:07 发布

原创最新推荐文章于 2025-02-15 20:02:07 发布 · 252 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop

本文详细介绍Hadoop集群的搭建过程，包括hosts文件修改、SSH无密钥登录配置、rsync远程同步设置，以及核心配置文件如core-site.xml、hdfs-site.xml、yarn-site.xml的调整。涵盖HDFS与YARN组件的部署与启动步骤，同时提供集群测试方法。

提示：

需要修改hosts文件，文章中使用hostname代替ip地址

192.168.59.134 centos01.bkm
192.168.59.135 centos02.bkm
192.168.59.136 centos03.bkm

需要SSH无密钥登录配置

需要rsync远程同步工具

1）集群部署规划

centos01.bkm

centos02.bkm

centos03.bkm

HDFS

NameNode

DataNode

SecondaryNameNode

DataNode

YARN

NodeManager

ResourceManager

NodeManager

2）修改/etc/hadoop下配置文件

（1）core-site.xml

    <!-- 指定HDFS中NameNode的地址 -->
	<property>
		<name>fs.defaultFS</name>
        <value>hdfs://centos01.bkm:9000</value>
	</property>
	<!-- 指定hadoop运行时产生文件的存储目录 -->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/hadoop/data/tmp</value>
	</property>

（2）hdfs

hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.7.0_79

hdfs-site.xml

<configuration>	
    <!-- 副本数 -->
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>
    <!-- 高可用secondnamenode -->
	<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>centos03.bkm:50090</value>
    </property>
</configuration>

配置datanode节点：slaves(注意，不能有空格空行和多余字符)

centos01.bkm
centos02.bkm
centos03.bkm

（3）yarn

yarn-env.sh

export JAVA_HOME=/opt/module/jdk1.7.0_79

yarn-site.xml

<configuration>
<!-- Site specific YARN configuration properties -->
<!-- reducer获取数据的方式 -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

<!-- 指定YARN的ResourceManager的地址 -->
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>centos02.bkm</value>
	</property>
</configuration>

（4）mapreduce

mapred-env.sh

export JAVA_HOME=/opt/module/jdk1.7.0_79

mapred-site.xml

<configuration>
<!-- 指定mr运行在yarn上 -->
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
</configuration>

3）在集群上分发以上所有文件

cd /opt/hadoop/etc/hadoop
xsync /opt/hadoop/etc/hadoop

4）查看文件分发情况

xcall cat /opt/module/hadoop/etc/hadoop/slaves

5）集群启动及测试

如果集群是第一次启动，需要格式化namenode，如果重新格式化则需要先删除data中数据
    bin/hdfs namenode -format
1）在namenode上启动/停止HDFS：启动后使用jps命令看是否跟规划节点一样
sbin/start-dfs.sh
sbin/stop-dfs.sh
2）在ResourceManger上启动/停止yarn：启动后使用jps命令看是否跟规划节点一样
sbin/start-yarn.sh
sbin/stop-yarn.sh
#注意：Namenode和ResourceManger如果不是同一台机器，不能在NameNode上启动 yarn，应该在ResouceManager所在的机器上启动yarn。

#启动成功后可以访问web页面
#dfs 访问namenode的IP:50070
#yarn 访问ResouceManager的IP:8088

上传文件
hadoop fs -put /home/centos/Downloads/hadoop-2.7.7.tar.gz /user/centos/input
如果上传完文件后没有产生备份，则需要查看对应端口是否开放

上传文件后进入data的最深层目录
-rw-r--r--. 1 root root 134217728 Dec  3 21:25 blk_1073741830
-rw-r--r--. 1 root root   1048583 Dec  3 21:25 blk_1073741830_1006.meta
-rw-r--r--. 1 root root  84502793 Dec  3 21:25 blk_1073741831
-rw-r--r--. 1 root root    660187 Dec  3 21:25 blk_1073741831_1007.meta
touch tmp
cat blk_1073741830>>tmp
cat blk_1073741831>>tmp
tar -zxvf tmp 
可得到解压后的hadoop-2.7.7.tar.gz