备忘录:为查询和总结记录。
记录:NO.224
本例环境:
操作系统:CentOS-7-x86_64-DVD-1908
JDK版本:jdk-8u251-linux-x64
Hadoop版本:hadoop-2.9.2
远程连接工具:SecureCRT 8.0
官网地址:https://hadoop.apache.org/
官网文档地址:https://hadoop.apache.org/docs
官网下载地址:https://archive.apache.org/dist/hadoop/common/
1.Hadoop运行模式
本地模式(Standalone Operation):By default, Hadoop is configured to run in a non-distributed mode, as a single Java process. This is useful for debugging.
伪分布式模式(Pseudo-Distributed Operation):Hadoop can also be run on a single-node in a pseudo-distributed mode where each Hadoop daemon runs in a separate Java process.
完全分布式模式(Fully-Distributed Operation):Install and configure Hadoop clusters ranging from a few nodes to extremely large clusters with thousands of nodes.
2.准备两个目录
在/home/apps目录,本例所有文件在此目录下,且使用learn用户操作
创建目录:
sudo mkdir module
sudo mkdir software
将目录所有权赋给learn
sudo chown learn:learn /home/apps/module/ /home/apps/software/
3.安装jdk
tar -zxvf jdk-8u251-linux-x64.rpm
本例安装在默认路径,即,
/usr/java/jdk1.8.0_251-amd64
也可以安装到指定目录比如:
tar -zxvf jdk-8u251-linux-x64.rpm -C /home/apps/module/
4.安装Hadoop
在/home/apps/software/操作
tar -zxvf hadoop-2.9.2.tar.gz -C /home/apps/module/
安装完成后
hadoop所在目录:/home/apps/module/hadoop-2.9.2
5.配置hadoop环境变量
在/etc/profile修改环境变量
sudo vim /etc/profile
###HADOOP_HOME 2020-7-19
export HADOOP_HOME=/home/apps/module/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
是配置生效:
source /etc/profile
验证hadoop命令生效:
hadoop
以上,hadoop安装完成
6.使用官网案例验证
mkdir input
cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'
cat output/*
即在/home/apps/module/hadoop-2.9.2目录下新建input目录
将/home/apps/module/hadoop-2.9.2/etc/hadoop/*.xml下的xml文件拷贝到
/home/apps/module/hadoop-2.9.2/input中
使用官网提供例子程序hadoop-mapreduce-examples-2.9.2.jar找到dfs字母
在cat output/*查看结果
在output生成两个结果文件
比如本例:
part-r-00000 :输出的结果
_SUCCESS : 成功标志
命令解析:
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'
jar使用jar包执行
grep是hadoop-mapreduce-examples-2.9.2.jar的方法
input:输入文件
output:输出文件
7.使用WordCount案例
先删除output
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount input/core-site.xml output
output每次必须清除
8.本例的基础环境准备在
https://blog.youkuaiyun.com/zhangbeizhen18/article/details/107437516
9.注意主机名与域名映射
本例主机名:hadoop150
域名映射:192.168.110.150 hadoop150
10.hadoop-2.9.2目录下文件说明
本例在/home/apps/module/hadoop-2.9.2目录下
bin目录:Hadoop的相关服务(HDFS,YARN)进行操作的脚本。
etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件。
include目录:对外提供的编程库头文件。
lib目录:Hadoop的本地库(对数据进行压缩解压缩功能)。
libexec目录:各个服务对应的shell配置文件所在的目录。
sbin目录:Hadoop的启动或停止Hadoop相关服务的脚本。
share目录:Hadoop的依赖jar包、文档、和官方案例。
以上,感谢。