Hadoop运行模式包括:本地模式、伪分布式模式,以及完全分布式模式。
1、本地模式
安装简单,在一台机器上运行服务,几乎不用做任何配置,但仅限于调试用途。没有分布式文件系统,直接读写本地操作系统的文件系统。
2、伪分布式模式
在单节点上同时启动namenode、datanode、jobtracker、tasktracker、secondary namenode等进程,模拟分布式运行的各个节点。配置已经很接近完全分布式。
3、完全分布式模式
正常的Hadoop集群,由多个各司其职的节点构成。
伪分布式运行模式
需求
已经配置java环境
已经配置hadoop环境
一、启动HDFS并运行MapReduce程序
1.配置集群
配置文件在:$HADOOP_HOME/etc/hadoop目录下
(1)配置:hadoop-env.sh
Linux系统中获取JDK的安装路径并复制:echo $JAVA_HOME
。
修改配置文件JAVA_HOME 路径:export JAVA_HOME=/opt/module/jdk1.8.0_144
。
如果配置文件中export JAVA_HOME=$JAVA_HOME
则也可以不改。
(2)配置:core-site.xml
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102(此虚拟机的主机名):9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/modules/hadoop-2.7.2/data/tmp(会自动创建)</value>
</property>
(3)配置:hdfs-site.xml
<!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
2.启动集群
(1)格式化NameNode(第一次启动时格式化,以后就不要总格式化)
hdf