hadoop简介与安装

Hadoop:一个分布式系统构架
hadoop主要解决海量数据的存储于分析计算的问题。高可靠,高扩展,高效,高容错。(集群不一定是分布式,分布式一定是集群)
组成:
Hadoop HDFS:一个高可靠,高吞吐量的分布式文件系)。
Hadoop MapReduce:一个分布式的离线并行框架。
Hadoop YARN:作业调度与集群资源管理的框架。
Hadoop Common:支持其他模块工具。

HDFS构架概述:
NameNode(nm):存储文件的元数据,如文件名.属性以及每个文件的块列表和块所在的DataNode等。
DataNode:在本地文件系统存储文件块数据,以及块数据的校验和。
Secondary NameNode:用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

YARN架构概述:
ResourceManager(rm):处理客户端请求,启动/监控AapplicationMaster,监控NodeManager,资源分配与调度。
NodeManager(nm):单个节点的资源管理,处理来自ResourceManager的命令,处理来自ApplicationMaster的命令。
AapplicationMaster:数据切分,为应用程序申请资源,分配给内部任务,任务监控与容错。
Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。

MapReduce构架概述:
分为map和reduce两阶段,
map阶段并行处理输入数据,reduce阶段对map结果进行汇总。

hadoop搭建:
1.虚拟机环境
修改主机名:/etc/sysconfig/network hadoop1
ip:192.168.86.101
配置主机名和映射关系:vi /etc/hosts 添加内容:192.168.86.101 hadoop1
修改主机映射:C:\Windows\System32\drivers\etc\hosts 添加内容:192.168.86.101 hadoop1
关闭防火墙:service iptable stop
2.安装jdk
查询是否存在:rpm -qa | grep java
如果低于1.7,卸载:rpm -e jdk名字
官网下载jdk,放到/usr/local下,解压:tar -zxvf jdk-xx-xx.gz
配置环境变量:vi /etc/profile
末尾添加:
export JAVA_HOME=/usr/local/jdk.xx.xx
export PATH=PATH:PATH:PATH:JAVA_HOME/bin
配置生效:source /etc/profile
测试是否成功:java -version 如不成功可重启再试
3.安装hadoop
官网下载,放到/usr/local下,解压:tar -zxvf hadoop-x.x.x.gz
环境变量:vi /etc/profile
末尾添加:export HADOOP_HOME=/usr/local/hadoop.xx.xx 在jdk路径export PATH=PATH:PATH:PATH:JAVA_HOME/bin后添加:$HADOOP_HOME/bin
配置生效:source /etc/profile
测试是否成功:hadoop version 如不成功可重启再试
4.配置
cd 到/usr/local/hadoop-xx.x/etc/hadoop下
修改hadoop-env.sh:vi hadoop-env.sh
添加 export JAVA_HOME=/usr/local/jdk.xx.xx
修改core-site.xml:vi core-site.xml
添加

 <property>
		<name>fs.defaultFS</name>
        <value>hdfs://hadoop1:9000</value> 
	</property>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/usr/local/hadoop-xx.x/data/tmp</value>
	</property>

修改hdfs-site.xml:vi hdfs-site.xml
添加

 <property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>

	<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop1:50090</value>
    </property>

修改yarn-env.sh:vi yarn-env.sh
添加export JAVA_HOME=/usr/local/jdk.xx.xx
修改yarn-site.xml
添加

<property>
		 <name>yarn.nodemanager.aux-services</name>
		 <value>mapreduce_shuffle</value>
	</property>

	<!-- 指定YARN的ResourceManager的地址 -->
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>hadoop1</value>
	</property>

修改mapred-env.sh
添加export JAVA_HOME=/usr/local/jdk.xx.xx
修改mapred-site.xml
添加

<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>

修改 slaves
添加 :hadoop1
5.启动
格式化NameNode(一次):hadoop namenode -format
启动:sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode
查看:jps
结果为:
461 NameNode
3608 Jps
3561 DataNode

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值