这篇论文发自SOSP 2013,又是AMPLAB的牛文(就是发Spark的那个组)。
一作是Kay Ousterhout,有幸在10月底在上海开的SOSP大会上目睹作者真容,她今年在SOSP斩获两篇文章,已经从 UC Berkeley 毕业了,现在自己创业公司名为Kelda。她在Ada Workshop上分享了自己做学术的这么一个经验,有机会写篇博客分享一下。
以下为正文。
当下的数据分析集群运行越来越多的短作业,这些短作业要求调度器能有很低的延迟、高并发和高吞吐,这一需求也在不断地推动工业界和学术界寻求新的方法。
调度毫秒级别的短作业作业对调度器来说是一个巨大的挑战,Sparrow就是在这样的背景下被提出来,其针对于短作业来实现高并发和低延迟。
Sparrow是一个分布式调度器,其不同于现在工业界用的单体式调度器,单体式调度器是整个集群只有一个调度器来处理所有提交的作业,为这些作业分配运行的机器,中心式可以看到整个集群每个节点的状态、资源使用量和空闲资源量等信息,调度器可以为新来的作业分配空闲资源比较多的机器;但是分布式调度器是集群中有多个调度器,这些调度器分散在不同的节点上,这些调度器各自为战,相互之间没有沟通,当有新的作业提交到调度器上后,调度器不