1、Hadoop概述
HDFS,MapReduce,yarn
2、项目需求分析与设计
3、Linux环境配置
1、配置hostname,便于直接用主机名访问。
配置host对应主机名network
配置host地址映射
2、切换到root用户下,编辑sudoers使kfk免密码输入
查看防火墙状态sudo service iptables status
,修改selinuxSELINUX=disabled
使得关闭防火墙。
通过命令开关防火墙:
然后卸载centos自带的java,sudo rpm -qa | grep java
查找包含java的安装包。sudo rpm -e --nodesp ~卸载含java
的安装包
4、安装软件
先创建目录,更改目录权限
修改目录权限chmod u+x /opt/softwares/*
上传安装包,解压jdktar -zxvf jdk -C /opt/modules/
并配置Java环境
5、集群配置
克隆三台机器。
配置三台机器的主机名和IP地址的映射(Windows也需要配置)
安装Hadoop2.5.0
sbin目录:存放启动或停止hadoop相关服务的脚本
bin目录:存放对hadoop相关服务(HDFS,YARN)进行操作的脚本
etc目录:hadoop的配置文件目录,存放hadoop的配置文件
share目录:存放hadoop的依赖jar包和文档,文档可以被删除掉
lib目录:存放hadoop的本地库(对数据进行压缩解压缩功能)
使用notepad连接Linux,对etc目录下的一些配置文件进行配置
配置hadoop-env.sh, yarn-en.sh, mapred-env.sh
的Java环境
echo $JAVA_HOME
直接找出Java的路径,复制路径到各个配置文件中。
根据官网配置namenode
配置datanode
,即配置slaves文件
首先进行格式化
格式化完成后,启动namenode和datanode
访问bigdata-pro01.kfk.com:50070就可以访问Hadoop文件系统了。
然后通过scp -r hadoop-2.5.0/ kfk@bigdata-pro02.kfk.com:/opt/modules/
发送给bigdata02。同理,发送给bigdata-pro03。
所有的软件发送完成后,在pro02和pro03节点上启动datanode.
这时打开 bigdata-pro01.kfk.com:50070 就可以看到分布式集群已经完成。
创建HDFS文件目录,上传文件并读取文件
至此三台机器的HDFS文件系统已经配置完成,接下来配置YARN。
根据官网,配置一下两个文件。
yarn-site.xml
配置如下:
然后配置mapred-site.xml
分发所有配置好的文件到另外两台机器上。
Map reduce实例
首先创建一个文件,并将其发送到hdfs文件系统上。
启动yarn resourcemanager
和yarn nodemanager
然后在另外两台机器上启动nodemanager
打开 bigdata-pro01.kfk.com:8088 通过node,可以查看所有的节点。
启动日志聚集:
重新启动hdfs和yarn。