大数据生态体系与Hadoop入门

本文详细介绍了如何基于JAVA/Scala搭建Hadoop集群,涵盖了Hadoop的组件、HDFS、MapReduce和YARN的架构,以及集群部署的步骤。在配置集群时,特别提到了内存限制的调整以防止容器被kill,并提供了核心配置文件如core-site.xml、hdfs-site.xml等的设置。此外,还强调了NameNode格式化和集群ID一致性的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

必备的知识

1、语言:

Base on JAVA / Scala

2、后端必备知识:

数据结构和算法

数据库基础

计算机网络

操作系统

设计模式

Linux OS

0 时下大数据生态体系

1 Hadoop框架组成

一、Hadoop组成

二、HDFS架构

 

 三、MapReduce架构

四、YARN架构

 五、三者协调关系

2 学习部署

1、VMware安装

2、设置虚拟机(服务器)硬件,安装linux镜像(软件)

3、配置linxu系统与网络(IP、主机名称)

4、XSHELL安装(远程访问工具)

5、Xftp安装(传输工具,配合XSHELL)

6、在XSHELL下以root安装epel-release

7、克隆服务器

3 配置集群

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

//yarn-site.xml 防止内存限制容器被kill
//集群高可用

<property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>20480</value>
</property>
<property>
   <name>yarn.scheduler.minimum-allocation-mb</name>
   <value>2048</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-pmem-ratio</name>
    <value>2.1</value>
</property>

workers

配置以上四大文件,详情请看教程

4 启动集群

第一次启动集群时,需要格式化NameNode。

在Hadoop根目录下输入如下命令进行NameNode格式化:

hdfs namenode -format

NameNode和DataNode的集群ID必须一致才能正常使用

注意:格式化NameNode会产生新的集群id导致NameNode和DataNode的集群id不一致,如果集群在运行过程中报错,需要重新格式化NameNode的话,一定要停止namenode和datanode进程,并且要删除所有机器的datalogs目录,然后再进行格式化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值