实时数据分析与可视化:Spark应用实践
1. 集群管理基础
在大数据处理中,集群管理是非常重要的一环,常见的集群管理系统有YARN和Mesos。
1.1 YARN
YARN是Hadoop新一代的MapReduce执行引擎,具备众多特性:
- 功能多样 :可以运行MapReduce、Spark等多种类型的程序。
- 组件构成 :由资源管理器和多个节点管理器组成。
- 应用运行方式 :应用在容器中运行,并提供自己的应用主程序。
- 调度器支持 :支持FIFO、容量和公平三种不同的调度器。
- Spark运行模式 :Spark在YARN上可以以yarn - cluster和yarn - client模式运行。
- 内存管理 :YARN会杀死使用内存超过允许范围的容器,因此调整 spark.executor.memoryOverhead 很重要。
- 日志管理 :提供日志聚合功能,方便日志检查。
- 资源分配 :是第一个支持动态分配的集群管理器。
- 安全访问 :是Spark可以访问通过Kerberos保护的HDFS的唯一集群管理器。
1.2 Mesos
Mesos也能运行不同类型的应
超级会员免费看
订阅专栏 解锁全文
1129

被折叠的 条评论
为什么被折叠?



