BBRv2/v3 详解

dog250

已于 2025-04-02 19:57:10 修改

阅读量1.4k

点赞数 19

文章标签： BBR

于 2025-04-02 19:56:14 首次发布

本文链接：https://blog.youkuaiyun.com/dog250/article/details/146961461

版权

昨晚写了从 BBRv2 到 BBRv3，有些核心点没有说清，剩下的自由两天，继续补充。

不管承认不承认，BBRv2/v3 在事实上已经是 cwnd-based cc，辅助以 pacing control。这没有什么错，我此前一贯的观点也这样，控制 inflight 总量，辅助以 pacing，至于这个 pacing 具体是多少，反正根本测不准，随便一个不大不小的 pacing rate 即可，典型的就是取 delivery rate，或大或小。

BBRv2/v3 与我此前 E_best inflight 守恒算法不同点在于它以 pacing gain 为因子做带宽 Probe 的手段，该行为内置在状态机中，具体参见下面函数：

/* PROBE_BW state machine: cruise, refill, probe for bw, or drain? */
static void bbr_update_cycle_phase(struct sock *sk,
                                    const struct rate_sample *rs,
                                    struct bbr_context *ctx)

本文主要说一些细节。

先看一下 BBRv2/v3(以下简称 BBR) 的 cwnd control 如何起决定性作用。BBR 采用下面的算法界定 cwnd，参见 BBR Congestion Control 4.6.1 节：
在这里插入图片描述

可以看到，cwnd 增加了严格的约束，界定在 inflight_lo 和 inflight_hi 之间，cwnd_gain * BDP 仅作为一个下界参与界定：

if (bbr->cycle_idx == BBR_BW_PROBE_CRUISE)
    cap = 0.85 * inflight_hi;
else
    cap = inflight_hi;
cap = min(cap, bbr->inflight_lo);
cap = min(cap, cwnd_gain * maxbw * minrtt);

接下来看一下 inflight_hi，inflight_lo 各自如何获得，这也是 BBRv2/v3 的一个难点。

如果把 BBR 状态机摘掉，用 AIMD 过程取代，inflight_hi 应该是 Additive Increase 的结果，而 inflight_lo 则来自 Multiplicative Decrease。换成 BBR 的 MDMD 过程，无非 BBR_BW_PROBE_UP 产生的 inflight 得到了 inlight_hi，而 Loss 对 inflight 进行 MD 而产生了 inflight_lo，该下界正是如 BBRv2 所述 “对丢包做出响应” 之体现。若没有丢包，inflight_lo 则完全不起作用。

与 AIMD 不同，BBR’s inflight_hi 在 BBR_BW_PROBE_UP phase 是一个增量 Slow-Start 过程(代码后解释)，由于内核不好实现浮点数运算，才导致代码太怪太乱，看注释即可：

// 每一个 round 执行 volume 翻倍。
/* Each round trip of BBR_BW_PROBE_UP, double volume of probing data. */
static void bbr_raise_inflight_hi_slope(struct sock *sk)
{
    /* Calculate "slope": packets S/Acked per inflight_hi increment. */
    growth_this_round = 1 << bbr->bw_probe_up_rounds;
    bbr->bw_probe_up_rounds = min(bbr->bw_probe_up_rounds + 1, 30);
    cnt = tcp_snd_cwnd(tp) / growth_this_round;
    cnt = max(cnt, 1U);
    bbr->bw_probe_up_cnt = cnt;
}

// PROBE_UP phase 每一个 round 执行 inflight_hi 递增
/* In BBR_BW_PROBE_UP, not seeing high loss/ECN/queue, so raise inflight_hi. */
static void bbr_probe_inflight_hi_upward(struct sock *sk,
                                          const struct rate_sample *rs)
{
    /* For each bw_probe_up_cnt packets ACKed, increase inflight_hi by 1. */
    bbr->bw_probe_up_acks += rs->acked_sacked;
    if (bbr->bw_probe_up_acks >=  bbr->bw_probe_up_cnt) {
        delta = bbr->bw_probe_up_acks / bbr->bw_probe_up_cnt;
        bbr->bw_probe_up_acks -= delta * bbr->bw_probe_up_cnt;
        bbr->inflight_hi += delta;
        bbr->try_fast_path = 0;  /* Need to update cwnd */
    }
    if (bbr->round_start)
        bbr_raise_inflight_hi_slope(sk);
}

BBR_BW_PROBE_UP phase 中 inflight_hi 的递增有个细节：

在增量递增行为上，它按照慢启动的方式指数级逼近总容量，每 round 新增 probe 量翻倍。

inflight_hi 在一系列连续的 round 中递增量分别为 1，2，4，8，16，… 直到退出 BBR_BW_PROBE_UP phase，在 BBR_BW_PROBE_UP 期间 inflight_hi 会即时反馈到 tcp_snd_cwnd 本身，这意味着这种 Slow-Start 增量本身就是 cwnd 增量，这是一种高效的方法。
继续看 inflight_lo 之前，先看代码对 inflight_hi，inflight_lo 的注释，它规范了两个量的生命周期：

 * The model has both higher and lower bounds for the operating range:
 *   lo: bw_lo, inflight_lo: conservative short-term lower bound
 *   hi: bw_hi, inflight_hi: robust long-term upper bound
 * The bandwidth-probing time scale is (a) extended dynamically based on
 * estimated BDP to improve coexistence with Reno/CUBIC; (b) bounded by
 * an interactive wall-clock time-scale to be more scalable and responsive
 * than Reno and CUBIC.

long-term 的意思是，它不会在某个规律的 phase 中被重置，类似 Vegas 中的全局 minrtt，只会更新，不会重置。而 short-term 则只在一个 phase 内生效，会被周期性重置。

有了该认识，再看 inflight_lo 就简单了：

inflight_lo 被初始化为 cwnd，遭遇 Loss or ECN Mark 之后，inflight_lo = (1 - beta) * inflight_lo。

这就是 BBRv2/v3 cwnd secondary control 的几乎全部，剩下的 pacing control 相比 BBRv1，PROBE_BW cycle 的定义有所改变，不再固定 round phase，做了细分：

BBR_BW_PROBE_UP：不再固定目标 inflight = 1.25 * BDP，而是只要丢包率(ECN Mark 率)不过量，带宽 Probe 不吃力，就一直 Probe；
BBR_BW_PROBE_DOWN：不再固定持续 1 个 round，而是 drain-to-target；
BBR_BW_PROBE_CRUISE：不再固定持续 6 个 round，而是接近 2～3 Sec(后面解释)；
BBR_BW_PROBE_REFILL：新增 phase，确保 inflight_lo，inflight_hi 可信。

BBR_BW_PROBE_UP 在从 BBRv2 到 BBRv3 已经解释过，BBR_BW_PROBE_CRUISE 在从 BBR 到 BBRv2 也有提到，这里重复一下。

如 BBRv2 draft 4.3.3.5.1 节所述，BBRv2 希望在 DC 和 Internet 都能和 Reno/CUBIC 友好共存，巧合的是，两类网络的典型 BDP 是一致的：

DC 网络：40 Gbps / 8 bits-per-Byte * 20 us / (1514 Bytes) ~= 66 packets
Internet：25Mbps / 8 bits-per-Byte * 30 ms / (1514 bytes) ~= 62 packets

意思是，为了让 AIMD 能充分发挥而不被 BBR 挤压，BBR_BW_PROBE_UP 之后大约 60 多个 RTT，BBRv2 便可友好地再次 BBR_BW_PROBE_UP，这个时间在 Internet 大约 2～3 secs(在 DCN 大约 1.3 ms)。该 Time Scale 不包含固定经验值，它是 rounds 的函数，自适应各类网络。这是一个事实上可靠的 BBR/Reno 共存保证。

所以在 BBRv2/v3 标准版，BBR_BW_PROBE_CRUISE 持续时间为：

/* Use BBR-native probe time scale starting at this many usec.
 * We aim to be fair with Reno/CUBIC up to an inter-loss time epoch of at least:
 *  BDP*RTT = 25Mbps * .030sec /(1514bytes) * 0.030sec = 1.9 secs
 */
static const u32 bbr_bw_probe_base_us = 2 * USEC_PER_SEC;  /* 2 secs */

/* Use BBR-native probes spread over this many usec: */
static const u32 bbr_bw_probe_rand_us = 1 * USEC_PER_SEC;  /* 1 secs */

至于 BBR.Swift，会有一篇单独的文章单独说。

最后看 BBR_BW_PROBE_REFILL。很多人对这个状态有疑问，它的意义是什么？还是看注释：

/* Send at estimated bw to fill the pipe, but not queue. We need this phase
 * before PROBE_UP, because as soon as we send faster than the available bw
 * we will start building a queue, and if the buffer is shallow we can cause
 * loss. If we do not fill the pipe before we cause this loss, our bw_hi and
 * inflight_hi estimates will underestimate.
 */
static void bbr_start_bw_probe_refill(struct sock *sk, u32 bw_probe_up_rounds)

注释从 inflight_hi 的视角写得很明白，我从 inflight_lo 的视角再解释一番。

BBRv2 引入 inflight_lo 来响应丢包，在 BBR_BW_PROBE_REFILL phase 之前 BBR_BW_PROBE_CRUISE phase 中任何丢包都会以 Multiplicative Decrease 拉低该值，它会直接影响 cwnd，进而影响 inflight，最终影响 bw。如果在 inflight_lo 已经被拉低后的状态直接开始 Probe，cwnd 可能已经处于一个低态，这会影响 Probe 的效果。如果不填满它本该填满的 Pipe，一旦一个不小心的丢包，吞吐就会被严重影响，不管承认不承认，BBRv2 开始，cwnd control 几乎已经成了 primary control。

因此，也正是在该 phase，在 BBR_BW_PROBE_UP 之前，short-term 的 inflight_lo，bw_lo 被重置，此后在不响应丢包的前提下用 max-bw filter 中的 maxbw 作为 pacing 持续 1 个 round 填满 Pipe，Pipe 满载，一切就绪后，进入下一轮 BBR_BW_PROBE_UP phase。

这里的 max-bw filter 值得一提。

在 BBRv1 中，该 filter 是一个 10-round window filter，而在 BBRv2 中发生了改变。由于整个 PROBE_BW cycle 不再固定 round phase，完全取决于 phase 子状态机，因此 max-bw filter 就不能再用 minmax_running_max 记录，而采用一种更加简单的双数组结构来记录：

/* Incorporate a new bw sample into the current window of our max filter. */
static void bbr_take_max_bw_sample(struct sock *sk, u32 bw)
{
    bbr->bw_hi[1] = max(bw, bbr->bw_hi[1]);
}
/* Keep max of last 1-2 cycles. Each PROBE_BW cycle, flip filter window. */
static void bbr_advance_max_bw_filter(struct sock *sk)
{
    bbr->bw_hi[0] = bbr->bw_hi[1];
    bbr->bw_hi[1] = 0;
}

最后，也是最有意思的，BBRv2/v3 之所以 “性能比 BBRv1 差得多”，原因在于：

// v1：无条件取 max
static u32 bbr_bw(const struct sock *sk)
{
    return bbr_max_bw(sk);
}
// v2/v3：除了 Refill/ProbeUP phase，只要有 Loss 就取 low
static u32 bbr_bw(const struct sock *sk)
{
    return min(bbr_max_bw(sk), bbr->bw_lo);
}