Hadoop、Spark运行原理
hadoop 运行原理
Hadoop的主要组成模块包括以下三个部分:
- Hadoop Distributed File System(HDFS):分布式文件存储系统。
- MapReduce:并行计算框架(可以自定义计算逻辑的部分)
- Yet Another Resource Negotiator(YARN):另一种资源协调者
https://blog.youkuaiyun.com/sky_flying1/article/details/78014723
Spark运行原理
主要由sparkcontext(spark上下文)、cluster manager(资源管理器)和▪executor(单个节点的执行进程)。其中cluster manager负责整个集群的统一资源管理。executor是应用执行的主要进程,内部含有多个task线程以及内存空间。
https://www.jianshu.com/p/cedbebfeea8c
https://dongkelun.com/2018/06/09/sparkArchitecturePrinciples/