CentOS-7安装Hadoop本地模式(hadoop-2.9.2)

最新推荐文章于 2022-06-06 10:19:37 发布

原创最新推荐文章于 2022-06-06 10:19:37 发布 · 373 阅读

0 ·

CC 4.0 BY-SA版权

L01-Hadoop 专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了如何在 CentOS 7 上安装 JDK 和 Hadoop 2.9.2，包括环境配置、安装步骤及使用官网案例进行验证的过程。

备忘录：为查询和总结记录。
记录：NO.224
本例环境：
操作系统：CentOS-7-x86_64-DVD-1908
       JDK版本：jdk-8u251-linux-x64
       Hadoop版本：hadoop-2.9.2
远程连接工具：SecureCRT 8.0
官网地址：https://hadoop.apache.org/
官网文档地址：https://hadoop.apache.org/docs
官网下载地址：https://archive.apache.org/dist/hadoop/common/
1.Hadoop运行模式
本地模式(Standalone Operation)：By default, Hadoop is configured to run in a non-distributed mode, as a single Java process. This is useful for debugging.
       伪分布式模式(Pseudo-Distributed Operation)：Hadoop can also be run on a single-node in a pseudo-distributed mode where each Hadoop daemon runs in a separate Java process.
       完全分布式模式(Fully-Distributed Operation)：Install and configure Hadoop clusters ranging from a few nodes to extremely large clusters with thousands of nodes.
2.准备两个目录
在/home/apps目录，本例所有文件在此目录下，且使用learn用户操作
       创建目录：
       sudo mkdir module
sudo mkdir software
       将目录所有权赋给learn
       sudo chown learn:learn /home/apps/module/ /home/apps/software/
3.安装jdk
tar -zxvf jdk-8u251-linux-x64.rpm
本例安装在默认路径，即，
/usr/java/jdk1.8.0_251-amd64
也可以安装到指定目录比如：
tar -zxvf jdk-8u251-linux-x64.rpm -C /home/apps/module/
4.安装Hadoop
在/home/apps/software/操作
       tar -zxvf hadoop-2.9.2.tar.gz -C /home/apps/module/
       安装完成后
       hadoop所在目录：/home/apps/module/hadoop-2.9.2
5.配置hadoop环境变量
在/etc/profile修改环境变量
       sudo vim /etc/profile
       ###HADOOP_HOME 2020-7-19
export HADOOP_HOME=/home/apps/module/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
       是配置生效：
       source /etc/profile
       验证hadoop命令生效：
       hadoop
以上，hadoop安装完成
6.使用官网案例验证
mkdir input
cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'
cat output/*
即在/home/apps/module/hadoop-2.9.2目录下新建input目录
       将/home/apps/module/hadoop-2.9.2/etc/hadoop/*.xml下的xml文件拷贝到
       /home/apps/module/hadoop-2.9.2/input中
       使用官网提供例子程序hadoop-mapreduce-examples-2.9.2.jar找到dfs字母
       在cat output/*查看结果
       在output生成两个结果文件
       比如本例：
       part-r-00000 :输出的结果
       _SUCCESS : 成功标志
       命令解析：
       bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'
jar使用jar包执行
       grep是hadoop-mapreduce-examples-2.9.2.jar的方法
       input：输入文件
       output：输出文件
7.使用WordCount案例
先删除output
       hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount input/core-site.xml output
output每次必须清除
8.本例的基础环境准备在
https://blog.youkuaiyun.com/zhangbeizhen18/article/details/107437516
9.注意主机名与域名映射
本例主机名：hadoop150
       域名映射：192.168.110.150 hadoop150
10.hadoop-2.9.2目录下文件说明
本例在/home/apps/module/hadoop-2.9.2目录下
       bin目录：Hadoop的相关服务(HDFS,YARN)进行操作的脚本。
       etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件。
       include目录：对外提供的编程库头文件。
       lib目录：Hadoop的本地库(对数据进行压缩解压缩功能)。
       libexec目录：各个服务对应的shell配置文件所在的目录。
       sbin目录：Hadoop的启动或停止Hadoop相关服务的脚本。
       share目录：Hadoop的依赖jar包、文档、和官方案例。
以上，感谢。