hadoop官网地址:https://hadoop.apache.org/
【1】安装jdk
这是前置步骤,必须有jdk环境,而且需要先卸载虚拟机自带的jdk。
查看系统中默认安装的jdk:
rpm -qa|grep jdk
java-1.8.0-openjdk-headless-1.8.0.262.b10-1.el7.x86_64
copy-jdk-configs-3.3-10.el7_5.noarch
java-1.7.0-openjdk-headless-1.7.0.261-2.6.22.2.el7_8.x86_64
java-1.8.0-openjdk-1.8.0.262.b10-1.el7.x86_64
java-1.7.0-openjdk-1.7.0.261-2.6.22.2.el7_8.x86_64
卸载JDK相关文件:
yum -y remove java-1.7.0-openjdk*
yum -y remove java-1.8.0-openjdk*
如下所示我们将包传给虚拟机:
解压JDK到/opt/module目录下
[root@localhost ~]# cd /opt/softinstall/
[root@localhost ~]# tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/
配置JDK环境变量
新建/etc/profile.d/my_env.sh文件,
vim /etc/profile.d/my_env.sh
添加如下内容,保存后退出。
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
使新的环境变量PATH生效
source /etc/profile
检测是否生效:
[root@centos3 softinstall]# java -version
java version "1.8.0_212"
Java(TM) SE Runtime Environment (build 1.8.0_212-b10)
Java HotSpot(TM) 64-Bit Server VM (build 25.212-b10, mixed mode)
【2】安装Hadoop
上图所示已经将Hadoop传到了虚拟机,解压安装文件到/opt/module下面
# 进入目录
cd /opt/softinstall
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/
将Hadoop添加到环境变量,获取Hadoop安装路径
[root@centos3 hadoop-3.1.3]# pwd
/opt/module/hadoop-3.1.3
打开/etc/profile.d/my_env.sh
文件
vim /etc/profile.d/my_env.sh
在my_env.sh文件末尾添加如下内容:
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
保存并退出: :wq
,让修改后的文件生效
source /etc/profile
测试是否安装成功
[root@centos3 hadoop-3.1.3]# hadoop version
Hadoop 3.1.3
Source code repository https://gitbox.apache.org/repos/asf/hadoop.git -r ba631c436b806728f8ec2f54ab1e289526c90579
Compiled by ztang on 2019-09-12T02:47Z
Compiled with protoc 2.5.0
From source with checksum ec785077c385118ac91aadde5ec9799
This command was run using /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-common-3.1.3.jar
重启(如果Hadoop命令不能用再重启虚拟机)。
【3】Hadoop目录
查看hadoop目录
[root@centos3 hadoop-3.1.3]# ll
total 176
drwxr-xr-x. 2 jane jane 183 Sep 11 2019 bin
drwxr-xr-x. 3 jane jane 20 Sep 11 2019 etc
drwxr-xr-x. 2 jane jane 106 Sep 11 2019 include
drwxr-xr-x. 3 jane jane 20 Sep 11 2019 lib
drwxr-xr-x. 4 jane jane 288 Sep 11 2019 libexec
-rw-rw-r--. 1 jane jane 147145 Sep 4 2019 LICENSE.txt
-rw-rw-r--. 1 jane jane 21867 Sep 4 2019 NOTICE.txt
-rw-rw-r--. 1 jane jane 1366 Sep 4 2019 README.txt
drwxr-xr-x. 3 jane jane 4096 Sep 11 2019 sbin
drwxr-xr-x. 4 jane jane 31 Sep 11 2019 share
- bin目录:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本
- etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
- lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
- sbin目录:存放启动或停止Hadoop相关服务的脚本
- share目录:存放Hadoop的依赖jar包、文档、和官方案例
【4】官方WordCount验证
创建在hadoop-3.1.3文件下面创建一个wcinput文件夹
mkdir wcinput
在wcinput文件下创建一个word.txt文件
root@centos3 hadoop-3.1.3]# cd wcinput/
[root@centos3 wcinput]# vim word.txt
编辑word.txt文件,输入如下内容:
hadoop yarn
hadoop mapreduce
jane
jane
保存退出::wq
回到Hadoop目录/opt/module/hadoop-3.1.3 ,执行程序
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput
查看结果
[root@centos3 hadoop-3.1.3]# cat wcoutput/part-r-00000
hadoop 2
jane 2
mapreduce 1
yarn 1
【5】修改配置文件
配置文件在 /opt/module/hadoop-3.1.3/etc/hadoop
路径下:
#进入目录
cd /opt/module/hadoop-3.1.3/etc/hadoop
[jane@centos3 hadoop]$ ll
total 172
-rw-r--r--. 1 jane jane 8260 Sep 11 2019 capacity-scheduler.xml
-rw-r--r--. 1 jane jane 1335 Sep 11 2019 configuration.xsl
-rw-r--r--. 1 jane jane 1940 Sep 11 2019 container-executor.cfg
-rw-r--r--. 1 jane jane 1269 Feb 10 21:27 core-site.xml
-rw-r--r--. 1 jane jane 3999 Sep 11 2019 hadoop-env.cmd
-rw-r--r--. 1 jane jane 15903 Sep 11 2019 hadoop-env.sh
-rw-r--r--. 1 jane jane 3323 Sep 11 2019 hadoop-metrics2.properties
-rw-r--r--. 1 jane jane 11392 Sep 11 2019 hadoop-policy.xml
-rw-r--r--. 1 jane jane 3414 Sep 11 2019 hadoop-user-functions.sh.example
-rw-r--r--. 1 jane jane 1024 Feb 10 21:34 hdfs-site.xml
-rw-r--r--. 1 jane jane 1484 Sep 11 2019 httpfs-env.sh
-rw-r--r--. 1 jane jane 1657 Sep 11 2019 httpfs-log4j.properties
-rw-r--r--. 1 jane jane 21 Sep 11 2019 httpfs-signature.secret
-rw-r--r--. 1 jane jane 620 Sep 11 2019 httpfs-site.xml
-rw-r--r--. 1 jane jane 3518 Sep 11 2019 kms-acls.xml
-rw-r--r--. 1 jane jane 1351 Sep 11 2019 kms-env.sh
-rw-r--r--. 1 jane jane 1747 Sep 11 2019 kms-log4j.properties
-rw-r--r--. 1 jane jane 682 Sep 11 2019 kms-site.xml
-rw-r--r--. 1 jane jane 13326 Sep 11 2019 log4j.properties
-rw-r--r--. 1 jane jane 951 Sep 11 2019 mapred-env.cmd
-rw-r--r--. 1 jane jane 1764 Sep 11 2019 mapred-env.sh
-rw-r--r--. 1 jane jane 4113 Sep 11 2019 mapred-queues.xml.template
-rw-r--r--. 1 jane jane 758 Sep 11 2019 mapred-site.xml
drwxr-xr-x. 2 jane jane 24 Sep 11 2019 shellprofile.d
-rw-r--r--. 1 jane jane 2316 Sep 11 2019 ssl-client.xml.example
-rw-r--r--. 1 jane jane 2697 Sep 11 2019 ssl-server.xml.example
-rw-r--r--. 1 jane jane 2642 Sep 11 2019 user_ec_policies.xml.template
-rw-r--r--. 1 jane jane 10 Sep 11 2019 workers
-rw-r--r--. 1 jane jane 2250 Sep 11 2019 yarn-env.cmd
-rw-r--r--. 1 jane jane 6056 Sep 11 2019 yarn-env.sh
-rw-r--r--. 1 jane jane 2591 Sep 11 2019 yarnservice-log4j.properties
-rw-r--r--. 1 jane jane 690 Sep 11 2019 yarn-site.xml
① 修改core-site.xml
# 编辑
vim core-site.xml
<configuration>
<!-- 指定NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.255.130:8020</value>
</property>
<!-- 指定hadoop数据的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-3.1.3/data</value>
</property>
<!-- 配置HDFS网页登录使用的静态用户为jane -->
<property>
<name>hadoop.http.staticuser.user</name>
<value>jane</value>
</property>
</configuration>
② 修改hdfs-site.xml
# 编辑
vim hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.http-address</name>
<value>192.168.255.130:9870</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>192.168.255.130:9868</value>
</property>
</configuration>
如果想要实现通过浏览器上传下载,参考如下配置:
<configuration>
<property>
<name>dfs.namenode.http-address</name>
<value>192.168.163.128:9870</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>192.168.163.128:9868</value>
</property>
<!-- DataNode Web 访问地址 -->
<property>
<name>dfs.datanode.http.address</name>
<value>192.168.163.128:9864</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.datanode.hostname</name>
<value>192.168.163.128</value> <!-- 或者你的服务器的实际主机名 -->
</property>
</configuration>
【6】启动hdfs遇到Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password)
错误
第一次启动之前需要先格式化NameNode,如果忘记则需要要先停止namenode和datanode进程,并且要删除所有机器的data和logs目录,然后再进行格式化。
后续如果服务停了,直接启动即可,不需要再次格式化。
# 回到目录
cd /opt/module/hadoop-3.1.3
# 执行命令进行格式化
./bin/hdfs namenode -format
#启动:
[jane@centos3 hadoop-3.1.3]$ ./sbin/start-dfs.sh
注意,使用非root用户启动哦。经查阅应该是ssh下的文件有访问权限限制,这里设置ssh免密登录协议。
操作步骤:
# 若没有该目录,请先执行一次ssh localhost
[jane@centos3 hadoop-3.1.3]$ cd ~/.ssh/
#会有提示,都按回车就可以 ssh-keygen -t rsa
[jane@centos3 .ssh]$ ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/home/jane/.ssh/id_rsa):
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /home/jane/.ssh/id_rsa.
Your public key has been saved in /home/jane/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:UQ/fmGhcxG/Pf/3+X2e6C+b1O1f5Y2gQX+W438L+QDM jane@centos3
The key's randomart image is:
+---[RSA 2048]----+
| ooo |
| o *.+ .|
| . + =..o.|
| o . +..|
| S o.E+.|
| . o.++|
| +.+.X|
| o =oO@|
| o.*B^|
+----[SHA256]-----+
##加入授权
[jane@centos3 .ssh]$ cat id_rsa.pub >> authorized_keys
文件权限设置:
[jane@centos3 .ssh]$ chmod 600 ./authorized_keys
[jane@centos3 .ssh]$ chmod 644 known_hosts id_rsa.pub
[jane@centos3 .ssh]$ chmod 600 id_rsa
[jane@centos3 .ssh]$ chmod 700 ~/.ssh
修改sshd_config文件
vim /etc/ssh/sshd_config
实例如下:
HostKey /etc/ssh/ssh_host_rsa_key
# 这个可能没有
RSAAuthentication yes
PubkeyAuthentication yes
AuthorizedKeysFile .ssh/authorized_keys
重启ssh 服务,我这里环境是Centos7.9
sudo systemctl restart sshd
hdfs的简单操作:
hadoop fs -mkdir /music
hadoop fs -put /opt/module/douban_2.csv /music
hadoop fs -ls /music
如何停止:
cd /opt/module/hadoop-3.1.3
[jane@localhost hadoop-3.1.3]$ ./sbin/stop-dfs.sh
【7】虚拟机动态IP修改为静态
如果你的虚拟机网络模式为NAT,网络配置文件默认为DHCP,那么需要注意可能IP为变哦,参考如下修改为静态
/etc/sysconfig/network-scripts/ifcfg-ens33
PROXY_METHOD="none"
BROWSER_ONLY="no"
BOOTPROTO="static" # 改为静态 IP
DEFROUTE="yes"
IPV4_FAILURE_FATAL="no"
IPV6INIT="yes"
IPV6_AUTOCONF="yes"
IPV6_DEFROUTE="yes"
IPV6_FAILURE_FATAL="no"
IPV6_ADDR_GEN_MODE="stable-privacy"
NAME="ens33"
UUID="dfb1231c-bcb4-47c1-b1ba-893a5f7023c9"
DEVICE="ens33"
ONBOOT="yes"
# 静态 IP 配置
IPADDR=192.168.121.135 # 设置静态 IP 地址
NETMASK=255.255.255.0 # 子网掩码
GATEWAY=192.168.121.1 # 网关地址
DNS1=211.137.191.26 # 首选 DNS
DNS2=218.201.96.130 # 备用 DNS
应用更改后,需要重启网络服务以使配置生效:
systemctl restart network
检查 IP 地址是否正确分配
ip addr show ens33
检查默认网关是否正确
ip route
# 网关为 192.168.248.2
default via 192.168.248.2 dev ens33 proto dhcp metric 100
# 子网掩码就是 255.255.255.0
192.168.248.0/24 dev ens33 proto kernel scope link src 192.168.248.141 metric 100
如何查看子网掩码?
虚拟机的IP地址是192.168.248.141,并且它所在的网络是192.168.248.0/24。这里的“/24”表示子网掩码的长度,这意味着子网掩码是24位。
转换为点分十进制表示,子网掩码就是255.255.255.0
。
这种配置通常用于小型局域网环境,支持最多254个主机(排除了网络地址和广播地址)。在这个子网中,有效的IP地址范围是从192.168.248.1到192.168.248.254。