YARN应用与MapReduce数据处理详解
1. YARN应用概述
YARN(Yet Another Resource Negotiator)的出现改变了Hadoop的工作方式,使得在集群上运行的应用不再局限于MapReduce。以下是一些基于YARN的应用:
- 图处理应用
- Apache Giraph :一个流行的图处理项目,从Hadoop 1版本及更早时期就开始在Hadoop上运行,并且开发者已将其更新为原生YARN应用。
- Apache Hama :也具备在YARN上进行图处理的能力。不过,部分图处理应用存在迭代时需要将整个图数据结构序列化到磁盘再从磁盘读取的问题,导致处理速度慢且繁琐。
- 实时数据处理应用
- Apache Storm :由Nathan Marz最初开发,是其Lambda架构的关键部分。Yahoo创建了storm - yarn项目,使多个Storm集群能在YARN上运行,并为Storm集群提供弹性,可快速为其分配额外资源。项目详情见:https://github.com/yahoo/storm - yarn 。
- Spark Streaming :作为Spark API的扩展,支持消费HDFS、Kafka、Flume等数据源,也支持在YARN上运行。它可能成为Storm的有力竞争对手,因为掌握Spark后就能进行Spark Streaming开发,反之亦然,为离线和实时数据分析提供了统一的编程范式。
超级会员免费看
订阅专栏 解锁全文
873

被折叠的 条评论
为什么被折叠?



