关注了就能看到更多这么棒的文章哦~
The BPF-programmable network device
By Jonathan Corbet
November 6, 2023
ChatGPT translation
https://lwn.net/Articles/949960/
在 Linux 上,容器和虚拟机是通过虚拟网络设备与世界通信。这样就使得其可以利用 Linux 网络协议栈的全部功能了,但也引入了 network stack 的全部开销。通常,这些网络流量的路由可以通过相对简单的逻辑处理;BPF 可编程网络设备在 6.7 内核发布中合并,使得至少在某些情况下可以避免网络处理出现太大的开销。
在当前系统中,当客户端(容器或虚拟机)通过网络发送数据时,该数据首先进入该客户(guest)端的网络协议栈,在这里会将其生成为数据包,并通过虚拟接口发送出去。在主机(host)端,该数据包再次在网络协议栈内接收和处理。如果数据包的目的地是主机外的网络节点,则该数据包将被路由到(真实的)网络接口进行重传(retransmission)。客户端的数据就进入真实网络世界了,但这是在经过两个网络协议栈的处理之后才实现的。
新的网络设备名为"netkit",希望能简化部分开销。从某种意义上说,它是一种典型的虚拟设备,即从一端传输的数据包在被另一端接收之前仅经过主机系统的内存。这里的主要差异是在传输的工作方式上。每个网络接口驱动程序都提供了一个包含大量函数指针的net_device_ops 结构 - 在 6.6 内核中多达 90 个。其中的一个函数是 ndo_start_xmit():
netdev_tx_t (*ndo_start_xmit)(struct sk_buff *skb, struct net_device *dev);
此函数的作用就是通过指定的设备 dev 来发起对 skb 中的数据包进行传输。通常在虚拟设备中,此函数将立即通过调用类似netif_rx() 的函数将数据包“接收”到对端的网络协议栈中。然而,netkit 设备的行为略有不同。
当配置好了这个虚拟接口时,就可以将一个或多个 BPF 程序加载到接口的两侧。由于 netkit BPF 程序可以影响主机端的流量的路由动作,因此只允许主机为主机或客户端加载这些程序。由 netkit 提供的 ndo_start_xmit() 回调函数不会仅仅将数据包传递回网络协议栈,而是按顺序调用每个附加上来的 BPF 程序,将数据包传递给每一个程序。BPF 程序能够修改数据包(例如更改目标设备),并且期望返回值可以指示接下来应该执行什么操作:
NETKIT_NEXT
: 继续处理这个系列中的下一个 BPF 程序(如果有的话)。如果没有更多程序要调用,则此返回将被视为NETKIT_PASS
。NETKIT_PASS
: 立即将数据包传递到接收方的网络协议栈,而不调用任何其他 BPF 程序。NETKIT_DROP
: 立即丢弃数据包。NETKIT_REDIRECT
: 立即将数据包重定向到新的网络设备,将其放到队列中从而可以进行传输,而无需经过主机的网络协议栈。
每个接口可以配置默认策略( NETKIT_PASS
或 NETKIT_DROP
),如果没有加载 BPF 程序进行决策,则将其应用。大多数情况下,正确的策略可能是丢弃数据包,确保在完全配置接口来处理数据包之前不会有网络数据泄漏出去。
如果尽早做出丢弃数据包的决定,就可以获得性能提升。通常会有大量没有价值的网络数据流入,因此花在上面的时间越少越好。但正如更改日志所述,最大的性能提升可能来自于在不重新进入网络协议栈的情况下就对数据包数据包进行了重定向(redirect):
例如,如果 BPF 程序确定必须将 skb 发送出节点,则可以直接对物理设备进行重定向,而无需经过每个 CPU 的积压队列。这有助于将此类流量的处理从 softirq 转移到进程上下文,从而改善调度决策/性能。
根据 2023 年 Linux 存储、文件系统、内存管理和 BPF 峰会演讲幻灯片显示,通过 netkit 设备(当时称为"meta")运行的客户端能够获得与直接在主机上运行一样高的 TCP 传输速率。换句话说,在客户端内部运行的性能开销已经完全被消除了。
鉴于对一些用户的潜在性能提升,这个由 Daniel Borkmann 提出但也包含 Nikolay Aleksandrov 的补丁系列被迅速合并。它首次发布到 BPF 邮件列表上是在 9 月 26 日,然后在那里经过四次修订,一个月后应用于 6.7 合并窗口。这个功能并非适用于所有用户,但对于那些在容器或虚拟机中部署网络密集型应用程序的用户来说,这可能确实是个很有吸引力的功能。
全文完
LWN 文章遵循 CC BY-SA 4.0 许可协议。
欢迎分享、转载及基于现有协议再创作~
长按下面二维码关注,关注 LWN 深度文章以及开源社区的各种新近言论~