Yarn的JVM重用功能——uber

最新推荐文章于 2024-03-30 20:42:03 发布

原创

最新推荐文章于 2024-03-30 20:42:03 发布 · 1w 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#yarn #jvm

本文探讨了YARN（Hadoop MapReduce v2）中的Uber模式，这是一种JVM重用功能，可以提高任务执行效率。与Hadoop 1.x中的JVM重用不同，YARN的Uber模式默认关闭，需要通过特定配置启用。启用后，小型应用的所有任务将在同一个JVM中执行，减少JVM启动和退出，从而实现资源的高效利用。详细介绍了启用Uber模式的配置参数及其工作原理。

在文章开头，我想先做几点说明：

1、本文的内容来自我对Yarn的相应功能的理解和实践。而我对该部分功能的理解主要来自对Hadoop的开发者之前相应言论的分析，并且我也将我的分析发给了Hadoop community，并得到了Yarn的创始人兼架构师Arun Murthy的肯定回复。

2、本文中uber的配置部分，主要参考之前Hadoop开发者的言论。但是我当初看该言论的时候对一些细节有所疑惑，因此在本文中我对很多地方做了修改：使一些用词的引用前后一致，并加上了很多描述性的过渡语言。

3、本文为研究性质，并非官方文档的翻译。因此，如果读者发现任何纰漏，希望不吝赐教，万分感激！

首先，简单回顾一下Hadoop 1.x中的JVM重用功能：用户可以通过更改配置，来指定TaskTracker在同一个JVM里面最多可以累积执行的Task的数量（默认是1）。这样的好处是减少JVM启动、退出的次数，从而达到提高任务执行效率的目的。配置的方法也很简单：通过设置mapred-site.xml里面参数mapred.job.reuse.jvm.num.tasks的值。该值默认是1，意味着TaskTracker会为每一个Map任务或Reduce任务都启动一个JVM，当任务执行完后再退出该JVM。依次类推，如果该值设置为3，TaskTracker则会在同一个JVM里面最多依次执行3个Task，然后才会退出该JVM。

在 Yarn（Hadoop MapReduce v2）里面，不再有参数mapred.job.reuse.jvm.num.tasks，但它也有类似JVM Reuse的功能——uber。据Arun的说法，启用该功能能够让一些任务的执行效率提高2到3倍（“we've observed 2x-3x speedup for some jobs”）。不过，由于Yarn的结构已经大不同于MapReduce v1中JobTracker/TaskTracker的结构，因此uber的原理和配置都和之前的JVM重用机制大不相同。

1) uber