Hadoop环境搭建
目录:
1 环境:
1 环境
(1)虚拟机:VMware Workstation
(2)Linux系统:RedHat Enterprise Linux7 64位
(3)辅助工具:Secure CRT
2 操作步骤
2.1 查看虚拟机IP地址
图2.1 截图1
2.2 导包
(1)使用Secure CRT工具将hadoop包以及JDK包导入
①修改字符编码为UTF-8
图2.2.1 截图2
②使用SFTP上传
图2.2.2 截图3
hadoop压缩包上传:
图2.2.3 截图4
jdk压缩包上传:
图2.2.4 截图5
2.3 对两个tar包进行解压缩
图2.3.1 截图6
①tar -xzvf jdk-8u92-linux-x64.gz对jdk包进行解压
图2.3.2 截图7
②tar -xvf hadoop-2.7.3.tar 对hadoop包进行解压
图2.3.3 截图8
2.4 配置环境变量
①找到profile文件,使用vi编辑器加入下面配置:
export JAVA_HOME=/root/opt/jdk1.8.0_92
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
图2.4.1 截图9
②使用java -version命令,查看到jdk安装成功
图2.4.2 截图10
2.5 安装ssh
①查看ssh安装情况:
图2.5.1 截图11
包含了openssh-server以及openssh-clients,因此不需要再安装。
②使用ssh localhost命令测试ssh是否能够使用:
图2.5.2 截图12
因为这样登录是需要每次输入密码的,因此为其配置ssh无密码登录方便使用。
图2.5.3 截图13
ssh-keygen:生成密钥
其中连续三次回车,即在本地生成了公钥和私钥,不设置密码,生成的公钥私钥都在~.ssh目录下,id_rsa是私钥,id_rsa.pub是公钥。
③将密钥加入授权中:
图2.5.4 截图14
必须将~/.ssh/authorized_keys的权限改为600, 该文件用于保存ssh客户端生成的公钥,可以修改服务器的ssh服务端配置文件/etc/ssh/sshd_config来换文件名,默认是叫authorized_keys
2.6 配置hadoop
①重命名文件名为hadoop
图2.6.1 截图15
②修改profile环境变量:
图2.6.2 截图16
然后保存后,使用source /etc/profile使环境变量生效
③在/home/hadoop2目录下创建数据存放的文件夹,tmp、hdfs、hdfs/data、hdfs/name
图2.6.3 截图17
④修改hadoop/etc/hadoop下的core-site.xml
图2.6.4 截图18
如图配置了临时目录
以及配置了缺省的文件URI标识设定
⑤修改hadoop/etc/hadoop下的hadoop-env.sh
图2.6.5 截图19
修改结果如下:
图2.6.6 截图20
⑥修改hadoop/etc/hadoop下的yarn-env.sh
图2.6.7 截图21
修改结果如下:
图2.6.8 截图22
⑦编辑mapred-site.xml文件
图2.6.9 截图23
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>127.0.0.1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>127.0.0.1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>127.0.0.1:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>127.0.0.1:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>127.0.0.1:8088</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>768</value>
</property>
</configuration>
⑧编辑hdfs-site.xml文件:
图2.6.10 截图24
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/hadoop2/hdfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/hadoop2/hdfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>127.0.0.1:9001</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>
⑨namenode完成客户端或datanode的数据迁移、目录操作。
hadoop namenode -format
执行namenode的格式化结果如下:
图2.6.11 截图25
2.7 启动hadoop
图2.7.1 截图26
①使用jps命令查看Java进程
图2.7.2 截图27
②使用ps -aux |grep hadoop查看含有hadoop字样的进程情况
图2.7.3 截图28
2.8 查看HDFS整体状态
①首先打开50070端口
图2.8.1 截图29
图2.8.2 截图30