Hadoop的部署与Minio区别

本文详细介绍了Hadoop集群的部署步骤,包括配置文件调整、格式化及启动检查等,并对比了Hadoop与Minio的区别,指出两者在对象存储和服务提供上的不同。

我们都知道,Hadoop是一个由Apache基金会所开发的基于分布式系统基础架构。使用用户可以在不了解分布式底层细节的情况下,进行分布式程序开发。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),不但包括分部署文件系统,而且还包括MapReduce计算,其中一个组件是HDFS。

一.Hadoop部署

以下以三台服务器节点为例,叙述hadoop集群的部署过程,它们分别如下:
192.168.0.1 #作为主节点
192.168.0.2
192.168.0.3
本次部署,使用appuser用户登录,将hadoop-3.2.1.tar.gz压缩文件解压到当前目录,最终文件存储目录为/appuser/hadoop-3.2.1,待配置完成后分别分发到其他相同目录的节点。

1. 文件配置准备

1.0 创建文件夹

进入到hadoop-3.2.1目录下分别创建文件夹;

 hadoop-3.2.1/hdfs
 hadoop-3.2.1/hdfs/name  #命名节点目录
 hadoop-3.2.1/hdfs/tmp   #临时文件目录
 hadoop-3.2.1/hdfs/data  #数据存储目录
1.1 配置hadoop-env.sh

cd /appuser/hadoop-3.2.1/etc/hadoop到目录,配置文件内容如下:

export JAVA_HOME=/usr/java/jdk1.8.0_151
1.2 配置workers

cd /appuser/hadoop-3.2.1/etc/hadoop到目录,配置另外两个节点为Slave worker节点

192.168.0.2
192.168.0.3
1.3 配置core-site.xml文件

cd /appuser/hadoop-3.2.1/etc/hadoop到目录,配置文件内容如下。注意在服务重启时,可能会出现失败,此时需要检查/appuser/hadoop-3.2.1/hdfs/tmp目录下的VERSION文件,确保每个节点VERSION版本相同,如果不同,统一用其中一个节点内容替代。

<configuration>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://192.168.0.1:9000</value>
	</property>
	<property>
		<name>hadoop.tmp.dir<name>
		<value>file:/appuser/hadoop-3.2.1/hdfs/tmp</value>
		<description>临时目录</description>
	</property>
	<property>
		<name>io.file.buffer.size</name>
		<value>131072</value>
	
### HadoopMinIO的集成 在大数据处理领域,Hadoop作为分布式存储和计算框架占据了重要地位。为了增强其对象存储能力,可以将MinIO集成到Hadoop环境中。这种集成为用户提供了一种高效的方式来进行数据管理和访问。 #### 集成方式 通过配置`core-site.xml`文件中的参数来指定外部的对象存储服务地址,使得Hadoop能够识别并连接至MinIO服务器。具体来说,在该配置文件里设置如下属性: ```xml <property> <name>fs.s3a.endpoint</name> <value>http://minio-server-address:9000</value> </property> <property> <name>fs.s3a.access.key</name> <value>your-access-key-id</value> </property> <property> <name>fs.s3a.secret.key</name> <value>your-secret-access-key</value> </property> ``` 上述XML片段展示了如何修改Hadoop配置以支持S3兼容接口[^1]。 此外,还需要安装AWS SDK for Java以及相应的依赖项以便于实现两者的对接操作。 ### 对比分析 | 特征 | Hadoop Distributed File System (HDFS) | MinIO | | --- | --- | --- | | **架构设计** | 主要用于批处理工作负载;基于NameNode/DataNodes结构构建而成 | 设计为云原生应用提供高性能的对象存储解决方案 | | **性能表现** | 较高的延迟时间适合大规模数据分析场景下的批量读写请求 | 提供低延迟能力适用于实时流媒体传输等需求更高的场合 | | **扩展性** | 支持水平扩展但是随着集群规模增大管理复杂度也会增加 | 易于横向扩展并且保持良好的线性增长特性 | | **成本效益** | 自建硬件设施投入较大且维护费用高 | 可利用现有公有云资源按需付费降低总体拥有成本 | 综上所述,虽然两者都提供了强大的数据持久化功能,但在实际应用场景的选择上会有所不同。对于那些已经投资建设了完整的Hadoop生态系统的组织而言,继续沿用HDFS可能是更为经济实惠的做法;而对于新兴企业或者希望快速部署弹性基础设施的企业,则可能更倾向于采用像MinIO这样的现代化替代方案[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

广漂一枚

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值