hadoop——3.3.0 版本
默认的端口
- namenode :
9870
- resourceManager :
8088
- mapreduce jobhistory server :
19888
伪分布式
设置配置文件
-
core-site.xml (记得设置hadoop-env.sh 的java环境)
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <!-- 指定Hadoop运行时产生文件的存储目录,不然会报错 --> <property> <name>hadoop.tmp.dir</name> <value>/opt/module/hadoop-3.3.0/data</value> </property> </configuration>
-
hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
- 启动 sbin/start-dfs.sh root 无法启动,除非要增加设置,建议新建用户启动
-
mapre-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
-
yarn-site.xml
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
- 启动 sbin/start-yarn.sh
分布式操作
架构划分
hadoop1(192.168.60.110) | hadoop2(192.168.60.111) | hadoop3(192.168.60.112) | |
---|---|---|---|
namenode,datanode | datanode | datanode,SecondaryNameNode(辅助) | HDFS |
nodemanager | resourcemanager,nodemanager,historyserver | nodemanager | YARN |
配置文件
以下配置主机名称都是在host配置好的
三台机器,配置文件都是一样的,只需要使用scp 或者rsync 进行同步,
-
core-site.xml
<!-- 指定HDFS中NameNode的地址 --> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop1:9000</value> </property> <!-- 指定Hadoop运行时产生文件的存储目录 --> <property> <name>hadoop.tmp.dir</name> <value>/opt/module/hadoop-3.3.0/data/namenode/</value> </property>
-
hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!--辅助名称结点主机配置-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop3:50090</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/opt/module/hadoop-3.3.0/data/datanode</value>
</property>
-
mapred-site.xml
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>hadoop2:10020</value> </property> <!--历史服务器web地址--> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>hadoop2:19888</value> </property>
-
workers
hadoop1 hadoop2 hadoop3
-
yarn-site.xml
<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!--指定resourceManager 地址--> <property> <name>yarn.resourcemanager.hostname</name> <value>hadoop2</value> </property> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <!-- 日志保留时间设置7天 --> <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property>
启动命令
-
格式化
bin/hdfs namenode -format
-
start-hdfs
sbin/start-dfs.sh
-
start-history
/bin/mapred --daemon start historyserver
关闭命令,相反即可
注:
- 如果jps 发现有节点没有启动,进入logs 日志里面查看
- 集群时间必须同步,或者相差不是很大,不然启动不起来