使用TLA+设计和证明Abaco自动伸缩器的属性
一、引言
Abaco(基于Actor的容器)平台是由美国国家科学基金会资助的项目,它为科研计算社区提供函数即服务(Functions-as-a-Service)。该平台托管于德克萨斯大学奥斯汀分校的德克萨斯高级计算中心,让科研项目能够按需执行工作负载,而无需管理任何服务器。目前,已有超过50,000个函数在Abaco上注册,执行次数超过一百万次。
Abaco基于并发计算的Actor模型设计,其中函数被称为actor,它们会响应发送到其收件箱的消息而执行。Abaco内部会将收到的消息存储在专门为actor分配的队列中,一个名为自动伸缩器(autoscaler)的子系统会异步启动和停止进程(即worker),这些worker会按照消息接收的顺序监督actor的执行。此外,Abaco必须处理对actor定义的并发更新,并且支持“零停机更新”,即更新actor定义时不会中断消息处理。
自动伸缩器需要确保actor执行的低延迟处理,同时高效利用底层计算资源。其关键属性包括:
1. 初始化步骤后,每个有待处理消息的actor都有最少数量的worker。
2. Abaco的worker总数不超过系统配置的最大允许worker数量。
3. 当worker为启动actor执行而从队列中取出消息时,使用actor的当前版本。
之前版本的Abaco存在竞态条件,在某些情况下会违反属性3。为了解决这个问题,我们使用TLA+语言为Abaco自动伸缩器子系统定义了规范,并分析了该系统。我们还使用TLC模型检查器和TLAPS证明系统对新设计进行了分析。
超级会员免费看
订阅专栏 解锁全文
1385

被折叠的 条评论
为什么被折叠?



