1、准备好四台服务器,做好规划
2、获取安装包
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
slaves
6、配置环境变量
7、初始化
8、启动
9、检测是否启动成功
10、简单使用
规划安装的用户: root
规划安装目录:/root/apps
规划数据目录:/root/data
2、获取安装包
把安装包上传到服务器
put -r "D:\hadoop-2.7.5-centos-6.7.tar.gz"
3、解压缩
tar -zxvf hadoop-2.7.5-centos-6.7.tar.gz -C ~/apps/
4、修改配置文件
进入配置文件目录
cd /root/apps/hadoop-2.7.5/etc/hadoop
待修改的文件:
hadoop-env.shcore-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
slaves
(1)hadoop-env.sh
修改JAVA_HOME将export JAVA_HOME=${JAVA_HOME}改成export JAVA_HOME=/usr/local/java/jdk1.8.0_73
(2)core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name><value>hdfs://hadoop01:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name><value>/root/data/hadoopdata</value>
</property></configuration>
(3)hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name><value>/root/data/hadoopdata/name</value>
<description>为了保证元数据的安全一般配置多个不同目录</description>
</property>
<property>
<name>dfs.datanode.data.dir</name><value>/root/data/hadoopdata/data</value><description>datanode 的数据存储目录</description>
</property>
<property>
<name>dfs.replication</name><value>2</value><description>HDFS 的数据块的副本存储个数</description>
</property>
<property>
<name>dfs.secondary.http.address</name><value>hadoop02:50090</value><description>secondarynamenode 运行节点的信息和namenode 不同节点</description>
</property></configuration>
(4)mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name><value>yarn</value>
</property></configuration>
(5)yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name><value>hadoop04</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value><description>YARN 集群为 MapReduce 程序提供的 shuffle 服务</description>
</property></configuration>
(6)slaves
配置的信息: 是hadoop集群的从节点列表
hadoop01hadoop02
hadoop03
hadoop04
5、把安装包分别分发给其他的节点
当前的hadoop安装包是存在于hadoop01上的, 但是安装的hadoop是一个分布式的集群。
重点强调: 每台服务器中的hadoop安装包的目录必须一致, 安装包的配置信息也必须保持一致
scp -r hadoop-2.7.5/ root@hadoop02:~/apps/scp -r hadoop-2.7.5/ root@hadoop03:~/apps/
scp -r hadoop-2.7.5/ root@hadoop04:~/apps/
vi /etc/profileexport HADOOP_HOME=/root/apps/hadoop-2.7.5export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:
刷新策略
source /etc/profile
只能在HDFS的主节点进行
hadoop namenode -format
(1)启动HDFS:不管在集群中的哪个节点都可以
cd /root/apps/hadoop-2.7.5/sbin
sh start-dfs.sh
(2)启动YARN:只能在主节点中进行启动
sh start-yarn.sh
(1)JPS命令查看对应的守护进程是否都启动成功
(2)启动HDFS和YARN的web管理界面
HDFS:http://hadoop01:50070YARN:http://hadoop04:8088
创建文件夹:hadoop fs -mkdir -p /wc/input
上传文件:hadoop fs -put a.txt /wc/input下载文件:hadoop fs -get /wc/input/a.txt
假如现在有一个文件: /wc/input/a.txt
运行一个mapreduce的例子程序:wordcount
进入mapreduce目录cd /root/apps/hadoop-2.7.5/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-2.7.5.jar wordcount /wc/input /wc/output
查看最终结果:
hadoop fs -cat /wc/output/part-r-00000