准备
JDK。
SSH。
下载hadoop-2.7.4.tar.gz
本地模式
1.tar开hadoop包
$>tar -zxvf hadoop-2.7.4.tar.gz
2.配置环境变量
[etc/environment]
PATH=...:hadoop_path/bin:hadoop_path/sbin
HADOOP_HOME=hadoop_path
3.验证安装
$>hadooop
伪分布式
1.修改配置文件
[hadoop_home/etc/hadoop/core-site.xml]
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
[hadoop_home/etc/hadoop/hdfs-site.xml]
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
2.配置无秘登录
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
验证 $>ssh localhost
3.执行
以下操作指导采用本地MapReduce程序运行mr作业,如果要使用YARN运行,请配置单节点YARN 。
1.格式化文件系统:
$>hdfs namenode -format
2.启动NameNode守护进程和DataNode守护进程:
$>start-dfs.sh
(用jps命令,需要有如下java进程正确启动:
$>jps
...
xxx NameNode
xxx SecondaryNamenode
xxx DataNode)
注:hadoop守护程序日志保存为${HADOOP_LOG_DIR}目录,默认为${HADOOP_HOME}/logs。
3.浏览NameNode的WebUI;,默认地址:
http://localhost:50070/
4.本地mr作业运行
1)创建运行mr作业需要的目录:
$>hdfs dfs -mkdir -p /user/username/mrInput
$>hdfs dfs -mkdir -p /user/username/mrOutput
2)将mr作业源文件导入到hdfs:
$>hdfs dfs -put /aimFile
3)运行mr实例(mr代码需提前编写):
$>hadoop jar wordcount.jar wordcount.WordCount /user/username/mrInput /user/username/mrOutput
4)检查输出文件:
将输出文件从分布式文件系统下载到本地:
$>hdfs dfs -get /user/username/mrOutput/...
也可以直接在hdfs上查看:
$>hdfs dfs -cat /user/username/mrOutput/...
5.工作完成后,关闭守护进程:
$>stop-dfs.sh
4.单节点YARN
注:2.7.4版本存在nodemanager无法启动问题,解决方案请参照:
[http://blog.youkuaiyun.com/anyuzun/article/details/78045601 ]
1.通过参数以便启用YARN服务,守护进程包括ResourceManager和NodeManager。
[hadoop_home/etc/hadoop/mapred-site.xml]
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
[hadoop_home/etc/hadoop/yarn-site.xml]
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
2.启动ResourceManager和NodeManager守护程序:
$>start-yarn.sh
3.访问ResourceManager的WebUI; 默认情况地址为:
http://localhost:8088/
4.运行MapReduce作业。
5.作业完成后,关闭守护进程:
$>stop-yarn.sh
完全分布式
参照连接 [http://blog.youkuaiyun.com/anyuzun/article/details/78022887 ]
高可用集群
qjm高可用参照 [http://blog.youkuaiyun.com/anyuzun/article/details/78065434 ]
yarn高可用参照 [http://blog.youkuaiyun.com/anyuzun/article/details/78069399 ]
附qjm高可用最简配置[http://download.youkuaiyun.com/download/anyuzun/9991582 ]