零拷贝技术详解

最新推荐文章于 2025-09-08 10:41:52 发布

原创最新推荐文章于 2025-09-08 10:41:52 发布 · 411 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#linux

零拷贝技术详解

一、零拷贝技术的概念与价值

1.1 什么是零拷贝

零拷贝（Zero-Copy）是一种数据传输技术，其核心思想是尽可能减少 CPU 在数据传输中的参与，以提高数据处理速度、降低 CPU 负载并减少延迟。它通过避免数据在用户空间和内核空间之间不必要的复制操作来实现性能优化。

核心原理：

利用 DMA（Direct Memory Access）控制器直接在设备与内存之间传输数据
通过内存映射技术使应用程序直接访问内核缓冲区
减少 CPU 拷贝操作和上下文切换次数

对比表：传统拷贝 vs 零拷贝

项目	传统拷贝	零拷贝
数据传输路径	多次用户态与内核态之间复制	数据直接在设备、内核和用户空间传输
CPU 负载	高，复制操作需要 CPU	低，数据尽可能绕过 CPU
内存带宽占用	高，多次数据复制	低，避免冗余数据复制
效率	较低	较高
延迟	高，需等待 CPU 处理	低，数据传输直接进行
系统调用/切换	4 次系统调用，4 次上下文切换	1-2 次系统调用，2 次上下文切换

1.2 为什么我们需要零拷贝

传统 I/O 的性能瓶颈：

4 次数据拷贝：
- 2 次 DMA 拷贝（设备↔内核，不可避免的）
  因为设备（如网卡、磁盘）无法直接处理高层内存结构，它必须通过 DMA 从系统内存中传输数据

原因	说明
设备只能操作物理地址	DMA 控制器通过物理地址访问系统内存，不理解虚拟地址或高层数据结构
CPU 不再拷贝，但数据仍需移动	数据必须从内存搬运到设备缓冲区，谁来搬都不重要，搬这一步是必须的
内存到网卡是物理传输	网络数据最终要从内存走 PCIe 总线 → 网卡 → 网络线
零拷贝目标是减少 CPU 拷贝，而不是“彻底不拷贝”	DMA 仍然是一次“不可避免”的底层拷贝

2 次 CPU 拷贝（内核↔用户空间）

4 次上下文切换：
- 上下文切换：操作系统内核在不同执行上下文之间切换，当用户程序需要执行如读写文件、发送网络数据等特权操作时，必须陷入内核态执行系统调用
- 传统方式(read+write) :

步骤	操作描述	切换方向
①	用户调用 `read()` 进入内核	用户态 → 内核态
②	`read()` 完成返回用户空间	内核态 → 用户态
③	用户调用 `write()` 进入内核	用户态 → 内核态
④	`write()` 完成返回用户空间	内核态 → 用户态

零拷贝方式(如sendfile) :

步骤	操作描述	切换方向
①	用户调用 `sendfile()` 进入内核	用户态 → 内核态
②	`sendfile()` 完成返回用户空间	内核态 → 用户态

为什么上下文切换是昂贵的操作？

① 保存当前进程的上下文信息

保存当前进程的 CPU 寄存器、程序计数器、堆栈信息

② 恢复另一个进程的上下文信息

从 PCB（进程控制块）中加载目标进程的寄存器、程序计数器、堆栈等内容
使新的进程从上次中断或调度点恢复执行

③ 刷新 TLB（一种高速缓存，用于加速虚拟地址到物理地址的转换）
不同的进程有不同的虚拟地址空间，如果不进行刷新则可能会导致访问别的进程数据或访问无效的物理内存

TLB 缓存了当前进程的虚拟地址到物理地址的映射
切换进程时需清空或失效当前 TLB 内容，防止地址映射错误

④ 其他开销

涉及 权限切换（用户态 ↔ 内核态），缓存刷新破坏CPU的缓存局部性影响接下来一段时间的执行效率

高 CPU 占用：
- CPU 忙于数据复制而非实际计算
  还有着内存宽带(内存系统在单位时间内能够传输的数据量)的限制，大量的数据拷贝会占用带宽，影响其他任务的运行，造成资源的竞争
  CPU 拷贝的本质是将数据从一个地方移动到另一个地方，这就需要频繁的内存访问。在大规模的数据传输中，
  CPU 必须依次读取源数据并写入目标位置，频繁的内存访问会消耗大量的时间，特别是当数据无法有效地被缓存时

零拷贝的价值：

提高吞吐量：减少 50% 以上的数据复制操作
降低 CPU 负载：释放 CPU 资源处理业务逻辑
减少延迟：数据传输路径更短更直接
节省内存带宽：避免冗余数据复制

1.3 零拷贝与传统拷贝方法的对比

1.3.1 数据传输路径对比

传统方式（4 次复制，4 次切换）：

磁盘 → (DMA Copy) →
内核缓冲区 → (CPU Copy) →
用户缓冲区 → (CPU Copy) →
Socket 缓冲区 → (DMA Copy) →
网卡

零拷贝方式（2 次复制，2 次切换）：

磁盘 → (DMA Copy) →
内核缓冲区 → (DMA Copy) →
网卡

1.3.2 性能影响对比

指标	传统拷贝	零拷贝	改进幅度
CPU 拷贝次数	2 次	0-1 次	50-100%
上下文切换	4 次	2 次	50%
系统调用	2 次（read+write）	1 次（sendfile 等）	50%

二、零拷贝技术的底层实现

2.1 虚拟文件系统（VFS）基础

关键组件：

超级块 (super_block)：文件系统的元数据仓库
目录项 (dentry)：管理路径结构，树形组织
inode：文件的唯一标识，链接磁盘位置
address_space：页缓存与文件系统的桥梁
页缓存 (page cache)：文件数据的内存缓存

文件读流程：

进程调用库函数向内核发起读文件请求
内核检查文件描述符，定位到 VFS 的文件项
调用 read() 系统调用
通过文件路径在目录项中查找 inode
利用偏移量计算出需要读取的页
通过 inode 找到 address_space
在 address_space 中查找页缓存：
- 命中：返回内容
- 缺失：创建页 → 从磁盘读取填充 → 重试
返回数据

inode 管磁盘，address_space 接内存，两者通过指针相连

文件写流程：

前 5 步同上
页缓存命中：修改内存页，不写磁盘
页缓存缺失：从磁盘读入 → 修改缓存
缓存页标记为脏页（内存中已被修改过，但尚未写回磁盘或其他持久存储介质的页面）
- 写回前不能被替换
- 写入期间上锁，阻塞其他写请求

2.2 Linux 零拷贝实现技术

2.2.1 mmap + write

void* addr = mmap(file_fd, len);
write(socket_fd, addr, len);

不适合小文件的传输
对于小文件（比如几 KB），实际要传输的数据量很少，但你做了多个系统调用，这些调用的时间成本比传数据本身还高，就很不划算了。
mmap 通常按页（比如 4KB）对齐，即使你的文件只有几百字节，也会映射至少 1 页的内存。
多出来的部分可能浪费内存，甚至在读取逻辑上需要你去考虑末尾处理。

将文件映射到内存后直接 write
1 次 CPU 拷贝，4 次上下文切换

2.2.2 sendfile

#include <sys/sendfile.h>
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

成功返回实际传输的字节数（可能小于 count）。
出错返回 -1，且设置 errno。

参数	说明
`out_fd`	目标文件描述符，通常是一个已连接的套接字（socket fd）。
`in_fd`	源文件描述符，通常是普通文件的fd，支持偏移读取的文件。
`offset`	指向文件读取起始偏移的指针，如果非 NULL，从该偏移读取文件。否则，使用文件当前偏移并自动更新。
`count`	要传输的最大字节数。

常用的方法，循环发送:
可以先将文件的大小发去，让客户端可以确保文件全部发送到位

while (offset < file_stat.st_size) {
    ssize_t sent = sendfile(client_fd, file_fd, &offset, file_stat.st_size - offset);
    if (sent <= 0) break;
}

内核直接从文件发送到 socket
1 次 CPU 拷贝，2 次切换
无法修改数据

局限性

不支持的文件类型

文件类型	说明
管道（pipe/FIFO）	不能直接用于管道文件描述符，因为管道是流式设备，没有随机访问能力。
字符设备（character device）	例如 `/dev/null`、终端设备，设备特殊，无法使用 `sendfile` 传输。
块设备（block device）	例如硬盘设备本身，不支持直接使用 `sendfile`。
套接字（socket）	不能作为 `in_fd`（源文件）使用，因为套接字不是普通文件。
符号链接（symbolic link）	符号链接本身不是文件内容，无法直接传输。

2.2.3 splice

splice(fd_in, off_in, fd_out, off_out, len, flags);

相比与sendfile使用起来更复杂一点需要搭配pipe进行使用，逻辑更为复杂一点，
但他又比sendfile能发送的文件更多，支持任意两个支持的文件描述符

建立内核空间数据通道
0 次 CPU 拷贝，4次切换

2.2.4 sendfile + DMA gather copy

网卡再利用 DMA Scatter-Gather 功能把文件数据 + 协议头（如 TCP/HTTP 头）一次性从多个内存块中收集发送，实现真正意义上的“零拷贝”发送
无需 CPU 参与拷贝整个 buffer，避免数据合并、拼接、拷贝等开销

// 设置 TCP_CORK：推迟发送，等待数据聚合
setsockopt(socket_fd, IPPROTO_TCP, TCP_CORK, &on, sizeof(on));

// write header，但不立即发出
write(socket_fd, http_header, header_len);

// 发送 file 内容
sendfile(socket_fd, file_fd, &offset, file_size);

// 关闭 CORK，发出完整包
setsockopt(socket_fd, IPPROTO_TCP, TCP_CORK, &off, sizeof(off));

TCP_CORK 是一个非常有用的 TCP 优化机制，它通过推迟数据的发送，将多个小的数据块合并成一个较大的 TCP 包，
从而优化网络带宽的使用、减少包的数量和提升吞吐量

使用 DMA gather 避免 socket 缓冲区拷贝
0 次 CPU 拷贝（需硬件支持），2次切换

三、零拷贝技术在 C/C++ 中的应用

3.1 应用场景与最佳实践

适用场景

大文件传输（视频、数据集）
网络代理和转发
数据库日志写入
多媒体流处理

技术选型指南

技术	适用场景	注意事项
`mmap`	随机访问大文件	小文件浪费内存
`sendfile`	文件到 socket 传输	不可修改数据，Linux 2.1+
`splice`	任意 fd 传输，适合网络转发	需管道支持
DMA gather copy	高性能传输	需硬件支持，Linux 2.4+
写时复制	多进程数据保护	需 MMU 支持

性能优化技巧

页对齐：尽量按页大小（4KB）对齐访问
批量操作：合并传输减少调用频率
避免小文件：mmap 不适合过小文件
缓存管理：调整页缓存大小

3.2 拷贝方式对比表

拷贝方式	CPU 拷贝	DMA 拷贝	系统调用	上下文切换	特点
read + write	2	2	read + write	4	通用性好，性能较差
mmap + write	1	2	mmap + write	4	可修改数据，小文件开销大
sendfile	1	2	sendfile	2	高效但不可改数据
sendfile + DMA gather	0	2	sendfile	2	性能最优但需硬件支持
splice	0	2	splice	2	灵活，fd 间传输，需要管道支持
用户态直接 I/O	0	1	特定接口	2	绕过内核，自缓存要求高