Hadoop/Spark 生态是大数据处理的核心技术体系,专为解决海量数据的存储、计算和分析问题而设计。以下从底层原理到核心组件详细讲解,帮助你快速建立知识框架!
一、为什么需要 Hadoop/Spark?
- 传统单机瓶颈:
- 数据量超过单机存储极限(如PB级数据)
- 计算任务无法在合理时间内完成(如TB级日志分析)
- 核心解决思路:
- 分布式存储:数据拆分到多台机器存储(如HDFS)
- 分布式计算:任务拆分到多台机器并行处理(如MapReduce/Spark)
二、Hadoop 生态详解
1. Hadoop 三大核心组件
组件 | 作用 | 类比解释 |
---|---|---|
HDFS | 分布式文件系统,存储海量数据 | 类似Google的GFS,数据切块存储 |
MapReduce | 分布式计算框架(批处理) | 分而治之:Map阶段拆分任务,Reduce阶段汇总结果 |
YARN |