Hadoop的伪分布式运行模式

最新推荐文章于 2025-04-30 20:02:55 发布

NFstriving

最新推荐文章于 2025-04-30 20:02:55 发布

阅读量2.4k

点赞数 3

分类专栏：学习笔记文章标签：分布式大数据 hadoop linux mapreduce

本文链接：https://blog.youkuaiyun.com/qq_19659617/article/details/114104527

版权

Hadoop运行模式包括：本地模式、伪分布式模式，以及完全分布式模式。
1、本地模式
安装简单，在一台机器上运行服务，几乎不用做任何配置，但仅限于调试用途。没有分布式文件系统，直接读写本地操作系统的文件系统。
2、伪分布式模式
在单节点上同时启动namenode、datanode、jobtracker、tasktracker、secondary namenode等进程，模拟分布式运行的各个节点。配置已经很接近完全分布式。
3、完全分布式模式
正常的Hadoop集群，由多个各司其职的节点构成。

伪分布式运行模式

需求

已经配置java环境
已经配置hadoop环境

一、启动HDFS并运行MapReduce程序

1.配置集群

配置文件在：$HADOOP_HOME/etc/hadoop目录下

（1）配置：hadoop-env.sh

Linux系统中获取JDK的安装路径并复制：echo $JAVA_HOME。
在这里插入图片描述
修改配置文件JAVA_HOME 路径：export JAVA_HOME=/opt/module/jdk1.8.0_144。
如果配置文件中export JAVA_HOME=$JAVA_HOME则也可以不改。

（2）配置：core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property>
	<name>fs.defaultFS</name>
    <value>hdfs://hadoop102（此虚拟机的主机名）:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
	<name>hadoop.tmp.dir</name>
	<value>/opt/modules/hadoop-2.7.2/data/tmp（会自动创建）</value>
</property>

在这里插入图片描述

（3）配置：hdfs-site.xml

<!-- 指定HDFS副本的数量 -->
<property>
	<name>dfs.replication</name>
	<value>1</value>
</property>

在这里插入图片描述

2.启动集群

（1）格式化NameNode（第一次启动时格式化，以后就不要总格式化）

hdf

最低0.47元/天解锁文章