hadoop3.3.0版本搭建

最新推荐文章于 2025-03-11 20:22:20 发布

Firewine

最新推荐文章于 2025-03-11 20:22:20 发布

阅读量829

点赞数

分类专栏：大数据文章标签： hadoop

本文链接：https://blog.youkuaiyun.com/xyjworkgame/article/details/108615096

版权

大数据专栏收录该内容

8 篇文章

订阅专栏

本文详细介绍了Hadoop 3.3.0版本的配置流程，包括伪分布式与完全分布式环境下的核心配置文件设置，如core-site.xml、hdfs-site.xml等，并提供了启动与关闭命令，以及常见问题排查方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

hadoop——3.3.0 版本

hadoop——3.3.0 版本

默认的端口

namenode ： 9870
resourceManager : 8088
mapreduce jobhistory server : 19888

伪分布式

设置配置文件

core-site.xml （记得设置hadoop-env.sh 的java环境）

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <!-- 指定Hadoop运行时产生文件的存储目录,不然会报错 -->
<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/module/hadoop-3.3.0/data</value>
</property>
</configuration>

hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

启动 sbin/start-dfs.sh root 无法启动，除非要增加设置，建议新建用户启动

mapre-site.xml

<configuration>
    <property>
     <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

启动 sbin/start-yarn.sh

分布式操作

架构划分

hadoop1（192.168.60.110）	hadoop2（192.168.60.111）	hadoop3（192.168.60.112）
namenode,datanode	datanode	datanode,SecondaryNameNode(辅助)	HDFS
nodemanager	resourcemanager,nodemanager,historyserver	nodemanager	YARN

配置文件

以下配置主机名称都是在host配置好的

三台机器，配置文件都是一样的，只需要使用scp 或者rsync 进行同步，

core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property>
		<name>fs.defaultFS</name>
      <value>hdfs://hadoop1:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/module/hadoop-3.3.0/data/namenode/</value>
</property>

hdfs-site.xml

<property>
         <name>dfs.replication</name>
         <value>3</value>
</property>
<!--辅助名称结点主机配置-->
<property>
          <name>dfs.namenode.secondary.http-address</name>
          <value>hadoop3:50090</value>
</property>
<property>
           <name>dfs.datanode.data.dir</name>
           <value>/opt/module/hadoop-3.3.0/data/datanode</value>
</property>

mapred-site.xml

 <property>
         <name>mapreduce.framework.name</name>
         <value>yarn</value>
</property>
<property>
         <name>mapreduce.jobhistory.address</name>
         <value>hadoop2:10020</value>
</property>
        <!--历史服务器web地址-->
<property>
          <name>mapreduce.jobhistory.webapp.address</name>
          <value>hadoop2:19888</value>
</property>

workers
```
hadoop1
hadoop2
hadoop3
```

yarn-site.xml

 <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>
<!--指定resourceManager 地址-->
<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop2</value>
</property>
<property>
         <name>yarn.log-aggregation-enable</name>
         <value>true</value>
</property>

 <!-- 日志保留时间设置7天 -->
<property>
         <name>yarn.log-aggregation.retain-seconds</name>
         <value>604800</value>
</property>

启动命令

格式化
```
bin/hdfs namenode -format
```
start-hdfs
```
sbin/start-dfs.sh
```

start-history

/bin/mapred --daemon start historyserver

关闭命令，相反即可

注:

如果jps 发现有节点没有启动，进入logs 日志里面查看
集群时间必须同步，或者相差不是很大，不然启动不起来