Hadoop分布式系统解析-优快云博客

本文链接：https://blog.youkuaiyun.com/javxia/article/details/102923075

Hadoop:一个分布式系统构架
hadoop主要解决海量数据的存储于分析计算的问题。高可靠，高扩展，高效，高容错。（集群不一定是分布式，分布式一定是集群）
组成：
Hadoop HDFS:一个高可靠，高吞吐量的分布式文件系）。
Hadoop MapReduce:一个分布式的离线并行框架。
Hadoop YARN:作业调度与集群资源管理的框架。
Hadoop Common:支持其他模块工具。

HDFS构架概述：
NameNode(nm)：存储文件的元数据，如文件名.属性以及每个文件的块列表和块所在的DataNode等。
DataNode：在本地文件系统存储文件块数据，以及块数据的校验和。
Secondary NameNode:用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

YARN架构概述：
ResourceManager（rm）:处理客户端请求，启动/监控AapplicationMaster，监控NodeManager，资源分配与调度。
NodeManager（nm）:单个节点的资源管理，处理来自ResourceManager的命令，处理来自ApplicationMaster的命令。
AapplicationMaster：数据切分，为应用程序申请资源，分配给内部任务，任务监控与容错。
Container：对任务运行环境的抽象，封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。

MapReduce构架概述：
分为map和reduce两阶段，
map阶段并行处理输入数据，reduce阶段对map结果进行汇总。

hadoop搭建：
1.虚拟机环境
修改主机名：/etc/sysconfig/network hadoop1
ip:192.168.86.101
配置主机名和映射关系：vi /etc/hosts 添加内容：192.168.86.101 hadoop1
修改主机映射：C:\Windows\System32\drivers\etc\hosts 添加内容：192.168.86.101 hadoop1
关闭防火墙：service iptable stop
2.安装jdk
查询是否存在：rpm -qa | grep java
如果低于1.7，卸载：rpm -e jdk名字
官网下载jdk，放到/usr/local下，解压：tar -zxvf jdk-xx-xx.gz
配置环境变量：vi /etc/profile
末尾添加：
export JAVA_HOME=/usr/local/jdk.xx.xx
export PATH= $P A T H :$ JAVA_HOME/bin
配置生效：source /etc/profile
测试是否成功：java -version 如不成功可重启再试
3.安装hadoop
官网下载，放到/usr/local下，解压：tar -zxvf hadoop-x.x.x.gz
环境变量：vi /etc/profile
末尾添加：export HADOOP_HOME=/usr/local/hadoop.xx.xx 在jdk路径export PATH= $P A T H :$ JAVA_HOME/bin后添加:$HADOOP_HOME/bin
配置生效：source /etc/profile
测试是否成功：hadoop version 如不成功可重启再试
4.配置
cd 到/usr/local/hadoop-xx.x/etc/hadoop下
修改hadoop-env.sh：vi hadoop-env.sh
添加 export JAVA_HOME=/usr/local/jdk.xx.xx
修改core-site.xml：vi core-site.xml
添加

 <property>
		<name>fs.defaultFS</name>
        <value>hdfs://hadoop1:9000</value> 
	</property>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/usr/local/hadoop-xx.x/data/tmp</value>
	</property>

修改hdfs-site.xml：vi hdfs-site.xml
添加

 <property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>

	<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop1:50090</value>
    </property>

修改yarn-env.sh：vi yarn-env.sh
添加export JAVA_HOME=/usr/local/jdk.xx.xx
修改yarn-site.xml
添加

<property>
		 <name>yarn.nodemanager.aux-services</name>
		 <value>mapreduce_shuffle</value>
	</property>

	<!-- 指定YARN的ResourceManager的地址 -->
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>hadoop1</value>
	</property>

修改mapred-env.sh
添加export JAVA_HOME=/usr/local/jdk.xx.xx
修改mapred-site.xml
添加

<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>

修改 slaves
添加 :hadoop1
5.启动
格式化NameNode(一次)：hadoop namenode -format
启动：sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode
查看：jps
结果为：
461 NameNode
3608 Jps
3561 DataNode

hadoop简介与安装