Hadoop安装伪分布模式-centos7

最新推荐文章于 2022-04-26 11:14:21 发布

原创最新推荐文章于 2022-04-26 11:14:21 发布 · 置顶 · 1k 阅读

13 ·

CC 4.0 BY-SA版权

hadoop 专栏收录该内容

1 篇文章

订阅专栏

本文详细介绍了在CentOS7上安装Hadoop伪分布模式的步骤，包括配置java环境、安装hadoop2.7.3、设置环境变量、配置HDFS、MapReduce、YARN相关文件，格式化HDFS，设置SSH免密码登录，以及启动HDFS和YARN的全过程。同时提到了Hadoop伪分布模式的特点和组成。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如果有帮助到你，可以关注一下，不定时会更新博客~，谢谢！

Hadoop的伪分布模式

1、特点：具备Hadoop的所有功能，在单机上模拟一个分布式的环境
hadoop伪分布下主要组成
（1）HDFS：主：NameNode，数据节点：DataNode
（2）MapReduce：并行运算
（3）Yarn：容器，运行MapReduce程序
主节点：ResourceManager
从节点：NodeManager

伪分布模式的安装步骤

1）安装java环境

java -version

在这里插入图片描述

2）上传hadoop2.7.3，并且解压

tar-zxvfhadoop-2.7.3.tar.gz

3）配置hadoop

一：配置hadoop环境变量

所有hadoop相关的配置文件都在etc目录下

1）修改hadoop-env.sh 文件的java环境，将java安装路径加进去：

export JAVA_HOME=/usr/jdk/jdk1.8.0_11

2）配置环境变量

 vi /etc/profile

加上以下内容

#hadoop enviroment
export HADOOP_HOME=/usr/bigdata/hadoop2.7.3/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin

立刻生效

source /etc/profile

二：配置HDFS，修改hdfs-site.xml

<configuration>

	<!--配置是否检查权限-->
	<property>
			 <name>dfs.permissions</name>
			 <value>false</value>
	</property>
	
	<!--文件夹先建立-->		
    <property>
    	<name>dfs.name.dir</name>
    	<value>/usr/bigdata/hdfs/name</value>
    	<description>namenode上存储hdfs名字空间元数据 </description> 
    </property>

	<!--文件夹先建立-->
    <property>
        <name>dfs.data.dir</name>
        <value>/usr/bigdata/hdfs/data</value>
        <description>datanode上数据块的物理存储位置</description>
    </property>


    <!-- 设置hdfs副本数量 -->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>

	<property>
		<name>dfs.namenode.secondary.http-address</name>
		<value>192.168.161.128:50090</value>
	</property>
</configuration>

三：修改核心文件，修改/usr/bigdata/hadoop2.7.3/etc/hadoop/core-site.xml 文件

<configuration>
    <!-- 指定HDFS（namenode）的通信地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.161.128:9000</value>
    </property>
    <!-- 指定hadoop运行时产生文件的存储路径，要先建立文件夹，不然可能会出错 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/bigdata/hadoop/tmp</value>
    </property>
</configuration>

四：修改mapRedure文件，修改mapred-site.xml

这里注意一下，hadoop里面默认是mapred-site.xml.template 文件，
如果配置yarn，要把mapred-site.xml.template 重命名为 mapred-site.xml 。
如果不启动yarn，把重命名还原。

mv mapred-site.xml.template mapred-site.xml

			<!--通知框架MR使用YARN-->
			<property>
			  <name>mapreduce.framework.name</name>
			  <value>yarn</value>
			</property>

五：修改yarn文件，yarn-site.xml

			<!--配置ResourceManager的地址-->
			<property>
			  <name>yarn.resourcemanager.hostname</name>
			  <value>192.168.161.128</value>
			</property>

			<!--配置NodeManager执行任务的方式-->
			<property>
			  <name>yarn.nodemanager.aux-services</name>
			  <value>mapreduce_shuffle</value>
			</property>

六：格式化HDFS

到了这里，hdfs，mapredure，yarn的基本配置基本完成
但是第一次启动hdfs之前，要格式化hdfs，之后启动就不用了

cd /usr/bigdata/hadoop2.7.3/hadoop-2.7.3
./bin/hdfs namenode -format

在这里插入图片描述

七：设置免密码登录

hadoop的进程之间同信使用ssh方式，需要每次都要输入密码。为了实现自动化操作，
需要配置ssh免密码登陆方式。

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

八：启动HDFS

在启动之后所有的启动日志会放在logs目录下，如果启动报错可以查看日志
启动之前要查询HDFS的端口是不是被占用了，要不然也是启动不了

netstat  -anp  |grep 9000
netstat  -anp  |grep 50070

现在可以开始启动了，启动命令是：

./sbin/start-dfs.sh

启动结果截图：
在这里插入图片描述
从图中看，会启动namenode, datanode, secondarynamenode

输入jps 查看是否已经全部启动
在这里插入图片描述

HDFS有自带的web控制台，我们在浏览器输入： http://192.168.161.128:50070
查看效果：
在这里插入图片描述

停止命令：

./sbin/stop-dfs.sh

九：启动yarn

检查控制台8088端口是否被占用

启动：

./sbin/start-yarn.sh

从图片可以看到，会启动resourcemanager，nodemanager

停止：

./sbin/stop-yarn.sh

在这里插入图片描述
可以看到全部都启动了，包括Yarn的resourcemanager和nodemanager

yarn也自带了web的控制台 http://192.168.161.128:8088
在浏览器输入该地址，看是否启动成功。
在这里插入图片描述

到这里，结束安装，
如果有帮助到你，可以关注一下，不定时会更新博客~，谢谢！