Linux部署hadoop伪分布式
文章目录
一、hadoop是什么?
Hadoop 是一个开源的分布式计算平台,用于存储和处理大规模数据集。它由Apache软件基金会开发和维护。Hadoop的核心组件包括:
-
Hadoop分布式文件系统(HDFS):用于存储大规模数据集的分布式文件系统。它通过将数据划分为多个块,并在集群中的多台服务器上存储这些块来实现数据的可靠性和可扩展性。
-
Hadoop YARN(Yet Another Resource Negotiator):作为资源管理器,负责管理和调度集群中的计算资源,以便在集群中运行各种计算作业。
-
MapReduce:是一种编程模型和处理框架,用于在Hadoop集群上进行大规模数据处理。它将任务分解成多个独立的任务(Map任务和Reduce任务),并在集群中的多台计算节点上并行执行这些任务。
Hadoop能够处理的数据量非常大,并且能够在分布式环境中实现高可用性和容错性。它被广泛应用于各种领域,如大数据分析、数据挖掘、日志处理等。
二、伪分布是什么?
伪分布式是指在单个节点上模拟分布式环境,使得开发者可以在单台计算机上运行和测试分布式系统的各个组件。在伪分布式模式下,所有的Hadoop核心组件(如HDFS、YARN和MapReduce)都在同一台计算机上运行,但它们仍然可以相互通信,并且可以使用多个进程模拟多台机器。
伪分布式模式通常用于开发和测试目的,因为它提供了一个简化的环境来验证和调试Hadoop应用程序,而无需真正的多台计算机集群。它允许开发者在单台计算机上模拟整个Hadoop集群的行为,包括数据存储、资源管理和任务执行等。
在伪分布式模式下,通常会在单个节点上运行单个NameNode和DataNode来模拟HDFS,同时运行ResourceManager和NodeManager来模拟YARN,以及运行MapReduce任务来模拟MapReduce框架。虽然所有组件都运行在单个节点上,但它们之间的通信和交互仍然遵循分布式系统的设计原则和通信协议。
总之,伪分布式模式提供了一个简单方便的方式来测试和开发Hadoop应用程序,但在生产环境中,通常会部署真正的分布式集群来获得更好的性能和可靠性。
三、使用步骤
1.下载jdk
一百度网盘链接:https://pan.baidu.com/s/1iiZho571cQq3aslqLHV9Jw?pwd=45sf
提取码:45sf
二官网下载(需要Oracle账号)
官网:www.oracle.com
2.下载hadoop和jdk安装包,如果有hadoop和jdk安装包,可以上传到Linux系统里
jdk从百度云下载到本地后上传到LInux系统中,可以通过rz工具
安装rz工具
//用root权限下载安装lrzsz软件包
//对于Red Hat/CentOS系统,运行以下命令:
sudo yum install lrzsz
//对于Debian/Ubuntu系统,运行以下命令
sudo apt-get update
sudo apt-get install lrzsz
在root
权限下使用rz,将jdk上传到Linux,上传时会默认上传到 当前文件夹,可以先进入你要保存jdk安装包的目录再使用rz命令,如何没有使用root权限会上传不成功
rz
下载hadoop-3.3.6
代码如下(示例):以在阿里云镜像仓库为列,用wget方法
//在root权限下 跟新yum库
yum -y update
//下载wget
yum install wget
//使用wget下载hadoop 保存在/opt/目录下
wget https://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz -p /opt/
出现下列图片则下载成功
3.关闭防火墙和关闭防火墙自启动
//在企业开发时,通常单个服务器的防火墙时关闭的。公司整体对外会设置非常安全的防火墙
systemctl stop firewalld
systemctl disable firewalld.service
4.解压安装hadoop和jdk
在安装jdk之前我们需要将Linux自带的jdk卸载
(如果是最小安装则忽略)
sudo rpm -qa | grep -i java | xargs -n1 sudo rpm -e --nodeps
//(1)rpm -qa:表示查询所有已经安装的软件包
//(2)grep -i:表示过滤时不区分大小写
//(3)xargs -n1:表示一次获取上次执行结果的一个值
//(4)rpm -e --nodeps:表示卸载软
解压安装
tar -zxvf hadoop-3.3.4.tar.gz -C /opt/module/ //-C 后面是hadoop的安装目录,根据自己情况选择安装目录
tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/ //安装jdk
5.修改安装目录的名字(方便配置环境)
进入安装路径
mv hadoop-3.3.4/ hadoop //将hadoop-3.3.4 改为 hadoop
mv jdk1.8.0_212/</