安装:
1)上传
2)解压
tar -xvzf hadoop-2.7.7.tar.gz
3)配置环境变量
在/home/hadoop/apps/执行下面的命令
ln -s hadoop-2.7.7 hadoop
修改环境变量:
export HADOOP_HOME=/home/hadoop/apps/hadoop
export PATH=PATH:PATH:PATH:HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile
hadoop version
4)修改hadoop的配置文件:
1)hadoop-env.sh
export JAVA_HOME=/home/hadoop/apps/jdk1.8.0_73
2)core-site.xml
<!-- 指定 hdfs抽象目录树的入口 的 nameservice 为 bd1901 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://bd1901/</value>
</property>
<!-- 指定 hadoop 工作目录 datanode|namenode存储的数据目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/data/hadoopdata/</value>
</property>
<!-- 指定 zookeeper 集群访问地址 -->
<property>
<name>ha.zookeeper.quorum</name>
<value>hdp01:2181,hdp02:2181,hdp03:2181</value>
</property>
3)hdfs-site.xml
<!-- 指定副本数 -->
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<!--指定 hdfs 的 nameservice 为 bd1901,需要和 core-site.xml 中保持一致-->
<property>
<name>dfs.nameservices</name>
<value>bd1901</value>
</property>
<!-- bd1901 下面有两个 NameNode,分别是 nn1,nn2 -->
<property>
<name>dfs.ha.namenodes.bd1901</name>
<value>nn1,nn2</value>
</property>
<!-- nn1 的 RPC 通信地址 -->
<property>
<name>dfs.namenode.rpc-address.bd1901.nn1</name>
<value>hdp01:8020</value>
</property>
<!-- nn1 的 http 通信地址 -->
<property>
<name>dfs.namenode.http-address.bd1901.nn1</name>
<value>hdp01:50070</value>
</property>
<!-- nn2 的 RPC 通信地址 -->
<property>
<name>dfs.namenode.rpc-address.bd1901.nn2</name>
<value>hdp02:8020</value>
</property>
<!-- nn2 的 http 通信地址 -->
<property>
<name>dfs.namenode.http-address.bd1901.nn2</name>
<value>hdp02:50070</value>
</property>
<!-- 指定 NameNode 的 edits 元数据在 JournalNode 上的存放位置 jounalnode通信端口8485 多个 ;隔开 -->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://hdp01:8485;hdp02:8485;hdp03:8485/bd1901</value>
</property>
<!-- 指定 JournalNode 在本地磁盘存放数据的位置 -->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/home/hadoop/data/hadoopdata/jounalnodedata</value>
</property>
<!-- 开启 NameNode 失败自动切换 -->
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<!-- 配置失败自动切换实现方式 -->
<!-- 此处配置在安装的时候切记检查不要换行-->
<property>
<name>dfs.client.failover.proxy.provider.bd1901</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<!-- 配置隔离机制方法,多个机制用换行分割,即每个机制暂用一行-->
<property>
<name>dfs.ha.fencing.methods</name>
<value>
sshfence
shell(/bin/true)
</value>
</property>
<!-- 使用 sshfence 隔离机制时需要 ssh 免登陆 -->
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/home/hadoop/.ssh/id_rsa</value>
</property>
<!-- 配置 sshfence 隔离机制超时时间 -->
<property>
<name>dfs.ha.fencing.ssh.connect-timeout</name>
<value>30000</value>
</property>
4)mapred-site.xml
mv mapred-site.xml.template mapred-site.xml
<!-- 指定 mr 框架为 yarn 方式 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!-- 设置 mapreduce 的历史服务器地址和端口号 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hdp03:10020</value>
</property>
<!-- mapreduce 历史服务器的 web 访问地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hdp03:19888</value>
</property>
5)yarn-site.xml
<!-- 开启 RM 高可用 -->
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<!-- 指定 RM 的 cluster id 两个rm起一个nameservice -->
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>yarn1901</value>
</property>
<!-- 指定 RM 的名字 -->
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<!-- 分别指定 RM 的地址 -->
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>hdp02</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>hdp03</value>
</property>
<!-- 指定 zk 集群地址 -->
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>hdp01:2181,hdp02:2181,hdp03:2181</value>
</property>
<!-- 要运行 MapReduce 程序必须配置的附属服务 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 开启 YARN 集群的日志聚合功能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- YARN 集群的聚合日志最长保留时长 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>86400</value>
</property>
<!-- 启用自动恢复 -->
<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>
<!-- 制定 resourcemanager 的状态信息存储在 zookeeper 集群上-->
<property>
<name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>
6)slaves
hdp01
hdp02
hdp03
5)远程发送
hadoop安装包
scp -r hadoop-2.7.7 hdp02:/home/hadoop/apps/
scp -r hadoop-2.7.7 hdp03:/home/hadoop/apps/
配置文件
sudo scp /etc/profile hdp02:/etc
sudo scp /etc/profile hdp03:/etc
创建软连
ln -s hadoop-2.7.7 hadoop
source /etc/profile
6)格式化 启动
一定按照以下顺序来进行
1)启动zk 每一个zk节点执行
zkServer.sh start
2)启动jounalnode
hdp01 hdp02 hdp03
hadoop-daemon.sh start journalnode
3)选择一个namenode节点进行格式化
hdp01
hdfs namenode -format
4)将hdp01 元数据 远程发送到另一个namenode节点 hdp02
scp -r hadoopdata hdp02:/home/hadoop/data/
保证fsiamge文件是一致的
5)初始化zkfc
hdp01 或 hdp02
监控每一个namenode的健康状况 写入zookeeper
在任意一个namenode执行 只需要执行一次
hdfs zkfc -formatZK
Successfully created /hadoop-ha/bd1901 in ZK.
就在zookeeper中创建一个节点 两个namenode的nameservice的节点/hadoop-ha/bd1901 存储两个namenode的状态信息的
6)启动
先启动hdfs
] 在任意一个节点
启动yarn
start-yarn.sh 最好在yarn的一个主节点
在另一个yarn的主节点 启动 resourcemanager
yarn-daemon.sh start resourcemanager