使用TLA+形式化验证Go并发程序

最新推荐文章于 2025-10-30 10:26:19 发布

原创

最新推荐文章于 2025-10-30 10:26:19 发布 · 1.3k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#golang #人工智能 #大数据 #开发语言 #后端

Writing is nature's way of letting you know how sloppy your thinking is - Guindon

在2024年6月份举办的GopherCon Europe Berlin 2024^[1]上，一个叫Raghav Roy的印度程序员(听口音判断的)分享了Using Formal Reasoning to Build Concurrent Go Systems^[2]，介绍了如何使用形式化验证工具TLA+^[3]来验证Go并发程序的设计正确性。

TLA+是2013年图灵奖获得者、美国计算机科学家和数学家、分布式系统奠基性大神、Paxos算法^[4]和Latex^[5]的缔造者Leslie B. Lamport^[6]设计的一种针对数字系统(Digital Systems)的高级(high-level)建模语言，TLA+诞生于1999年，一直低调演进至今。

TLA+不仅可以对系统建模，还可以与模型验证工具，比如：TLC model checker，结合使用，对被建模系统的行为进行全面的验证。我们可以将TLA+看成一种专门用于数字系统建模和验证的DSL语言^[7]。

注：TLA是Temporal Logic of Actions的首字母缩写，Temporal Logic^[8]，即时序逻辑，是一种用于描述和推理系统行为随时间变化的逻辑框架，由Arthur Prior在1950年代后期引入逻辑学。在后面对TLA+的进一步介绍中，大家可能就会逐渐理解为什么Lamport给这门语言命名为TLA+了。

这不是我第一次接触TLA+，去年就花过一些时间了解过TLA+的资料，可能是因为姿势不够正确，没有在本博客留下只言片语，而这次我打算写点有关TLA+的东西。

1. 为什么需要TLA+

从1999年Lamport发表的论文“Specifying Concurrent Systems with TLA+^[9]”以及他2014年在微软的演讲“Thinking Above the Code^[10]”中，我们大致可以得到Lamport在20多年前设计TLA+的朴素的动机：**期望程序员能像科学家一样思考，在编码之前用一种精确的形式化的语言写出目标系统的spec，这个过程类似于建筑架构师在建筑施工之前编制建筑的蓝图(blueprint)**。

为什么要编写目标系统的spec呢？

综合来自Lamport的相关资料，大致可以梳理出以下两点：

从程序员的角度来看，在开始编码之前，先在抽象的层面思考系统行为，而不是过早地陷入编程语言的具体语法中。并且先写下规格说明，可以帮助程序员明确需求，认知系统，发现潜在问题，并为后续的编码和维护提供指导。
从系统复杂性的角度来看，对于日益复杂的并发和分布式系统，仅靠直觉思考很难保证正确性，传统的测试方法也已经不足以发现所有问题。这时候写spec(规格说明)并用配套的检查工具进行验证就变得非常必要。

那为什么要新设计TLA+来写spec呢，而不是使用像C++这类编程语言，或是其他已存在的形式化语言来编写spec呢？

Lamport给出的理由有以下几个：

编程语言的局限性：像C++这样的编程语言主要是为了实现而设计的，而不是为了spec。它们往往过于关注实现细节，而不是高层次的系统行为，缺乏描述并发和分布式系统所需的抽象能力，不适合表达系统的时序性质和不变量。
已有形式化语言的不足：当时存在的其他形式化语言大多存在要么过于学术化，难以在实际工程中应用，要么难以自然地表达并发和分布式系统的特性等问题；并且缺少工具支持，不具备spec验证功能。
数学建模的局限：纯粹的数学公式虽然精确，但对非数学背景的工程师来说难以理解和使用，缺乏工具支持，难以自动化验证，难以直接映射到系统设计和实现。

Lamport设计的TLA+是建立在坚实的数学基础之上，这使得它能够支持严格的数学推理和证明与自动化验证工具（如TLC模型检查器）无缝集成。TLA+被设计为在高度抽象的层面描述系统，不会像编程语言那样受实现细节的束缚。此外，结合时序逻辑和状态机，TLA+可以描述并发和分布式系统，并在设计层面验证系统的正确性。

根据Lamport的不完全统计^[11]，TLA+在Intel、Amazon、Microsoft等大厂都有应用，一些知名的算法以及开源项目也使用TLA+进行了形式化验证，比如Raft算法的作者就给出了Raft算法的TLA+ spec^[12]，国内分布式数据库厂商pingcap也在项目中使用TLA+对raft算法以及分布式事务做了形式化的验证^[13]。

在这些应用案例中，AWS的案例是典型代表。AWS也将应用TLA+过程中积累的经验以paper的形式发表了，其论文集合^[14]也被Lamport放置在其个人主页上了。从这些论文内容来看，AWS对TLA+的评价是很正面的：AWS使用TLA+对10个大型复杂的真实系统进行建模和验证，的确发现了多个难以通过其他方法发现的微妙错误。同时，通过精确描述设计，TLA+迫使工程师更清晰地思考，消除了“看似合理的含糊之处”。此外，AWS工程师认为TLA+ spec也是一种很好的文档形式，可以提供精确、简洁、可测试的设计描述，有助于新人快速理解系统。

铺垫了这么多，TLA+究竟是什么？它是如何在高级抽象层面对分布式系统和并发系统进行描述和验证的？接下来，我们就来看一下。

2. Lamport对TLA+的定义

在Lamport的论文、书籍以及一些演讲资料中，他是这么定义TLA+的：A language for high-level modeling digital systems。对于这个定义，我们可以“分段”来理解一下。

Digital System

什么是TLA+眼中的数字系统(Digital System)？Lamport认为数字系统包括算法(Algorithms)、程序(Programs)和计算机系统(Computer system)，它们有一个共同特点，那就是可以抽象为一个按离散事件序列(sequence of discrete events)进行持续执行和演进的物理系统，这是TLA+后续描述(specify)数字系统的基础。随着多核和云计算的兴起，并发程序和分布式的关键(critical)系统成为了TLA+的主要描述对象，这样的系统最复杂，最难正确实现，价值也最高，值得使用TLA+对其进行形式化的验证。

High Level

TLA+面向设计层面，在代码实现层面之上，实施于编写任何实现代码之前。此外，High Level也意味着可以忽略那些系统中不是很关键(less-critical)的部分以及低层次的实现细节。

去除细节进行简化的过程就是抽象（Abstraction），它是工程领域最重要的环节。抽象可以让我们理解复杂的系统，如果不了解系统，我们就无法对系统进行正确的建模并实现它。

而使用TLA+编写系统spec其实就是一个学习对系统进行抽象的过程，学会抽象思考，可以帮助工程师提高设计能力。

Modeling

TLA+是通过描述系统的行为(behavior)来对数字系统进行建模的。那么什么是系统的行为呢？如下图所示：

此图由claude sonnet 3.5根据我的prompt生成

行为被Lamport定义为一系列的状态（Sequence of States），这些状态仍然按顺序排列，表示系统随时间的演变。而状态本身则是对变量的赋值。状态之间的转换由动作(action)描述，而系统的正确性由属性(properties)指定。

这种方法特别适合建模并发和分布式系统，因为它允许我们精确地描述系统的所有可能行为，包括不同组件之间的交互和可能的竞争条件，如下图所示：

在TLA+中，属性(properties)是用来描述系统应该满足的条件或特性，它们在验证系统行为的正确性方面起着关键作用。我们所说的系统工作正常就是指这些在执行过程中的属性都得到了满足。

在TLA+中，有两类属性是我们特别需要关注的，一类是安全属性（Safety Properties），一类则是活性属性（Liveness Properties）。前者确保“坏事永远不会发生”，比如使用不变量在并发系统中确保两个进程不会同时进入临界区；后者则是确保“好事最终会发生”，在分布式系统中的最终一致性（eventual consistency）是一个活性属性，它保证系统最终会达到一致的状态。TLA+允许我们精确地指定这些属性，然后使用TLC模型检查器来验证系统是否满足这些属性。这种方法特别适合于复杂的并发和分布式系统，因为它能够发现在传统测试中难以发现的微妙错误。

注：关于TLA+可以用来形式化描述(specify)和验证(check)数字系统的底层数学理论，可以参考Lamport老爷子那本最新尚未完成的书籍A Science of Concurrent Programs(2024.6.7版)^[15]。

接下来，我们就来看看TLA+究竟如何编写。不过直接介绍TLA+语法比较抽象和枯燥，在我读过的TLA+语法资料中，Lamport在The TLA+ Video Course^[16]第二讲中将一个C示例程序一步一步像数学推导一样转换为TLA+语法的讲解对我帮助非常大，我觉得有必要将这个示例放到这篇文章中。

3. 从C代码到TLA+：转换步骤详解

Lamport的这个过程展示了如何从一个具体的编程语言实现(以C代码为例)逐步抽象到一个数学化的、更加通用的系统描述。每一步都增加了抽象级别，最终得到一个可以用于形式化验证的TLA+规范(spec)。以下是这个演进过程的主要阶段：

3.1 初始C程序分析

下面是这个示例的原始C代码：

int i;
void main() {
    i = someNumber();
    i = i + 1;
}

这不是一个并发程序，它只有一个执行路线(execution)，前面说过，一个行为(execution)是一个状态序列，我们就来定义这个状态序列以及它们之间的转换关系。

我们先识别出程序的状态变量：i以及引入的控制状态变量（PC），PC变量来表示程序的执行位置。接下来我们就来描述一个可以代码该程序所有状态的“状态机”。

3.2 状态机描述

该程序可以划分为三个状态：

初始状态：i = 0, PC = "start"
中间状态：i in {0, 1, ..., 1000}(这里限定了someNumber函数返回的数值范围), PC = "middle"
结束状态：i = i + 1, PC = "done"

下面用自然语言描述一下上述状态的转换关系：

if current value of pc equals "start"
    then next value of i in {0, 1, ..., 1000}
         next value of pc equals "middle"
    else if current value of pc equals "middle"
            then next value of i equals current value of i + 1 
                 next value of pc equals "done"
            else no next values

接下来，我们就来将上述对于状态转换的描述变换一下，尽量用数学来表示。

3.3 转换为数学表示

这里的转换分为几步，我们逐一来看。

换掉"current value of"

if pc equals "start"
    then next value of i in {0, 1, ..., 1000}
         next value of pc equals "middle"
    else if pc equals "middle"
            then next value of i equals i + 1 
                 next value