【Hadoop】Hadoop概览

本文详细介绍了Hadoop的重要组成部分,包括HDFS、YARN架构、MapReduce过程等,并深入探讨了分布式作业提交流程、二次分发机制以及输入输出格式。

学习Hadoop之后,根据个人理解,给出Hadoop中比较重要的组件,及其之间的关联,若有理解不到位之处,后续改正。

Hadoop整体预览

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

重要组件及重要过程

1. HDFS

a. HDFS : Hadoop Distributed File System
b. HDFS用于Hadoop的分布式存储,可以查看相关概念以及常用命令

2. YARN架构

3. 本地模式MR过程分析

对于Map 和 Reduce过程,一开始先从本地模式开始,用调试的方法跑通整个过程
查看Map和Reduce运行流程

4. 分布式下作业提交过程

跑通本地模式下的MR过程,接下来就是分布式环境了,因为分布式涉及到远程调试,因而先从提交作业的过程开始分析
查看分布式环境下作业提交的过程

5. 二次分发过程

作业提交到分布式环境中,会转换成应用(Application),Hadoop对应用的处理是基于事件的,会将应用状态转换的每一步当做一个事件存于底层的事件队列中进行处理,而对事件的处理会经过一个二次分发的过程
查看事件二次分发过程

6. InputFormat & OutputFormat

Hadoop处理的是海量的数据,而数据的来源可以来自文本,数据库或其他,对于这些数据来源的描述、处理就需要使用InputFormat
Map过程处理的是key-value键值对,而从数据源到键值对的转换即需要RecordReader
相应的,对于MR结果的输出则是OutputFormat及RecordWriter
查看InputFormat & OutputFormat过程

 

转载于:https://www.cnblogs.com/sqdmydxf/p/7767770.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值