Hadoop、Mapreduce、Spark概念_mapreduce、hadoop、spark基本特点&区别-优快云博客

本文链接：https://blog.youkuaiyun.com/qinqiuti8765/article/details/114841250

本文介绍了Hadoop的基础知识，包括HDFS、MapReduce和YARN，阐述了MapReduce的工作流程和优缺点。然后转向Spark，讨论了Spark的核心概念RDD、Spark SQL、Spark Streaming、GraphX和MLlib，强调了Spark相比Hadoop在性能和处理模型上的优势，如减少磁盘I/O和增加并行度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ref: Hadoop基础知识 Spark基础知识1
https://blog.youkuaiyun.com/lbyyy/article/details/53334019
https://blog.youkuaiyun.com/leanaoo/article/details/83153889
mapreduce工作流程
 Spark基础知识详解
 Spark常考面试题

背景

目前按照大数据处理类型来分大致可以分为：批量数据处理、交互式数据查询、实时数据流处理，这三种数据处理方式对应的业务场景也都不一样；
Hadoop的核心为HDFS与MapReduce，HDFS分布式文件系统在Hadoop中是用来存储数据的；MapReduce为Hadoop处理数据的核心
可以这么说Hadoop适用于Map、Reduce存在的任何场景，具体场景比如：WordCount、排序、PageRank、用户行为分析、数据统计等，而这些场景都算是批量数据处理，而Hadoop并不适用于交互式数据查询、实时数据流处理.