安装和配置Hadoop2.7.4集群 是基于VMware虚拟机软件,CentOS-6.5-x86_64-bin-DVD1.iso光盘映像文件,搭建的Linux系统集群
先安装并配置JDK-1.8
cd /opt/mysoft
tat -zxvf jdk-8u131-linux-x64.tar.gz//解压压缩包
mv jdk-8u131-linux-x64.tar.gz jdk//重命名
vi /etc/profile
添加 :
export JAVA_HOME=/opt/mysoft/jdk
export PATH=$PATH:$JAVA_HOME/bin:$PATH
source /etc/profile(使设置生效)
验证JDK
java -version
将JDK安装文件拷贝到qiku2,qiku3,qiku4中
scp -r jdk/ qiku2:/opt/mysoft/
scp -r jdk/ qiku3:/opt/mysoft/
scp -r jdk/ qiku4:/opt/mysoft/
首先将Windows上的两个压缩包上传到虚拟机的/opt/mysoft/ 下
第一步:
解压:tar -zxvf hadoop-2.7.4.tar.gz
重命名:mv hadoop-2.7.4 hadoop
第二步:
cd /opt/mysoft/hadoop
mkdir logs
mkdir tmp
mkdir -p tmp/dfs/name
mkdir -p tmp/dfs/data
第三步:修改配置文件
cd /opt/mysoft/hadoop/etc/hadoop
mv mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
如图:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>qiku1:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>qiku1:19888</value>
</property>
<property>
<name>mapreduce.jobtracher.http.address</name>
<value>qiku1:50030</value>
</property>
</configuration>
要想在hadoop集群中让mapreduce程序以分布式方式运行(mapreduce也可以以local方式运行,也就是单机),就要有一个对这个程序进行分发任务到各个mnodeManager机器上运行,就要监控这些任务运行,分配资源(CPU,内存等),运行中的各类异常处理和恢复等,这个就是yarn框架能完成的,也称为:资源调度器。这些信息就通过mapred-site.xml配置的。
下一步修改:
vi core-site.xml 如图:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.110.10:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/opt/mysoft/hadoop/tmp</value>
</property>
<property> <name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
</configuration>
接下来:
vi hdfs-site.xml 如图:
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>qiku:50090</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/opt/mysoft/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/opt/mysoft/hadoop/tmp/dfs/data</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
上图中的tmp/dfs/name 和tmp/dfs/data目录是上面手动创建的。
然后:
vi yarn-site.xml 如图:
<configuration>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>1540</value>
</property>
<property>
<name>yarn.nodemanager.resource.cpu-vcores</name>
<value>1</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>qiku</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
</configuration>
配置slaves (指定dataNode,nodeManager节点)
vi opt/mysoft/hadoop/etc/hadoop/salves 如图:
配置slaves的目的,是确定哪些机器上运行yarn框架下的nodeManager进程和对应的DataNode进程。(每台机器都安装了完整的Hadoop程序,至于说某台机器运行里面的那些子程序,根据配置来定。)
配置Hadoop工作时的部分环境变量
vi opt/mysoft/hadoop/etc/hadoop/hadoop-env.sh 如图。设定JDK位置及其它项
第四步:最终的/etc/profile
将上面的/etc/profile拷贝到qiku2,qiku3,qiku4
scp /etc/profile/ qiku2:/etc/profile
拷贝成功后:source /etc/profile
scp /etc/profile/ qiku3:/etc/profile
拷贝成功后:source /etc/profile
scp /etc/profile/ qiku4:/etc/profile
拷贝成功后:source /etc/profile
拷贝hadoop文件到qiku2,qiku3,qiku4上
首先在其余三台虚拟机上/opt/下创建mysoft目录
scp -r hadoop/ qiku2:opt/mysoft/
scp -r hadoop/ qiku3:opt/mysoft/
scp -r hadoop/ qiku4:opt/mysoft/
第五步:验证hadoop集群是否安装配置成功
在节点qiku1上进行操作
cd /opt/mysoft/hadoop/bin
hadoop namenodes -format(首次安装集群后执行,只执行一次,生成数据信息相关格式描述文件等信息,类似数据字典)
然后:
start-all.sh
最后:在虚拟机浏览器中输入qiku1:50070。如图,就成功了。