大数据基础平台实施及运维之伪分布式部署

原创

已于 2023-03-22 10:50:47 修改 · 193 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#java #eclipse #开发语言 #分布式

于 2023-03-22 10:39:08 首次发布

本文详细介绍了Hadoop伪分布式部署的全过程，包括修改配置文件如hadoop-env.sh、mapred-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml，启动NameNode、DataNode，配置并运行YARN，以及HDFS上的操作测试。通过YARN理解资源管理和任务调度，并体验WordCount实例，最后讨论了日志聚集和历史服务的开启。

学习目标:

能够了解伪分布式部署模式

能够正确修改配置文件

能够掌握YARN架构及架构角色功能

能够对已部署的Hadoop集群进行应用测试

1)伪分布式部署模式介绍

Hadoop守护进程运行在本地机器上，模拟一个小规模的的集群。

该模式在单机模式之上增加了代码调试功能，允许你检查内存使用情况，HDFS输入/输出，以及其他的守护进程交互。

2)获取软件包

可参考：第八节 1.2.1与1.2.2小节

3）修改配置文件

主要涉及的配置文件有：hadoop-env.sh、mapred-env.sh、yarn-env.sh、core-site.xml

3.1）修改hadoop-env.sh、mapred-env.sh、yarn-env.sh文件中JAVA_HOME参数

1[root@localhost ~]#vim ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh

1修改JAVA_HOME参数为：
2export JAVA_HOME="/usr/local/jdk"

3.2)修改core-site.xml

[root@localhost ~]#vim ${HADOOP_HOME}/etc/hadoop/core-site.xml

(1)配置fs.defaultFS
<property>
 <name>fs.defaultFS</name>
 <value>hdfs://hd1:8020</value>
</property>
(2)配置hadoop临时目录
 <property>
  <name>hadoop.tmp.dir</name>
  <value>/opt/data/tmp</value>
 </property>

配置临时目录前，请先创建此目录,不创建也可以。

HDFS的NameNode数据默认都存放这个目录下，查看 *-default.xml 等默认配置文件，就可以看到很多依赖${hadoop.tmp.dir} 的配置。

默认的 hadoop.tmp.dir 是 /tmp/hadoop-${user.name} ,此时有个问题就是NameNode会将H