进程虚拟地址空间（Virtual Address Space, VAS）深度解析

原创已于 2025-12-31 14:05:14 修改 · 880 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#linux

于 2025-12-22 00:22:15 首次发布

Linux 专栏收录该内容

14 篇文章

订阅专栏

要理解进程虚拟地址空间（Virtual Address Space, VAS），核心是抓住它的本质：内核为每个进程分配的「私有、连续的地址范围」—— 进程认为自己独占了这部分地址，但这些地址并非直接对应物理内存，而是通过内核的 “映射规则” 关联到实际的物理内存 / 磁盘空间。

一、核心定义（专业 + 通俗）

进程虚拟地址空间是：

操作系统为每个进程提供的「抽象内存视图」，是一组连续的、从 0 开始的地址（比如 x86 架构是 0~4GB，x86-64 是 0~128TB）；
进程所有的内存操作（读写变量、调用函数、打开文件）都基于这组虚拟地址，而非直接操作物理内存；
每个进程的虚拟地址空间是完全独立的：进程 A 的虚拟地址0x1000和进程 B 的0x1000可以映射到不同的物理内存页，互不干扰。

关键结论：虚拟地址空间是 “地址范围”，不是实际内存；物理内存是 “存储介质”，虚拟地址需通过内核映射才能访问物理内存。

二、为什么需要虚拟地址空间？（设计初衷）

没有虚拟地址空间时，进程直接使用物理地址会面临三大问题：

内存冲突：多个进程可能同时使用同一个物理地址，导致数据覆盖、程序崩溃（比如进程 A 写入0x1000，进程 B 也写入0x1000，数据相互覆盖）。
内存利用率低：进程必须占用连续的物理内存，大块内存需求可能因碎片无法满足，且进程未使用的内存也无法被其他进程复用。
安全性差：进程可以直接访问其他进程的物理内存，存在数据泄露或恶意修改风险。

虚拟地址空间通过 “隔离 + 映射” 解决了这些问题，同时带来额外优势：

按需加载：进程的代码、数据无需全部加载到物理内存，仅在需要时（如访问某部分内存触发缺页中断）才加载，节省物理内存。
内存共享：多个进程可以共享同一物理内存区域（如共享库、共享内存段），通过映射到各自虚拟地址空间的不同位置实现。
地址保护：虚拟地址空间的每个区域（如代码段、数据段）可设置权限（读 / 写 / 执行），违规操作会被 CPU 拦截（如修改代码段会触发段错误）。

三、虚拟地址空间的结构（以 Linux x86-64 为例）

Linux 把进程的虚拟地址空间分为两大块：用户态空间（进程私有）和内核态空间（所有进程共享），整体布局如下（地址从低到高）：

地址范围（x86-64）	区域名称	核心作用	权限 / 特点
0x0000000000000000 ~ 0x00007FFFFFFFFFFF	用户态空间（~128TB）	进程的私有代码、数据、堆、栈等	进程可直接访问，权限可定制
├─ 低地址	.text 段	存放进程的机器码（编译后的代码）	只读、可执行
├─ .data 段	已初始化的全局 / 静态变量	可读可写
├─ .bss 段	未初始化的全局 / 静态变量	仅占地址空间，不占磁盘 / 物理内存（运行时分配）	可读可写
├─ 堆（Heap）	动态内存分配（malloc/mmap）	向上增长（地址变大），可读可写
├─ 共享库区（mmap）	加载共享库（如 libc.so）、内存映射文件	多进程共享，可读可执行
├─ 栈（Stack）	函数调用、局部变量、函数参数	向下增长（地址变小），可读可写
└─ 高地址（用户态上限）	环境变量 / 命令行参数	只读
0xFFFF800000000000 ~ 0xFFFFFFFFFFFFFFFF	内核态空间（~128TB）	内核代码、物理内存映射、进程描述符、管道缓冲区等	仅内核可直接访问，所有进程共享

关键补充：

用户态空间：进程能直接操作的区域，每个进程的用户态空间完全隔离（比如进程 A 的堆和进程 B 的堆映射到不同物理页）；
内核态空间：所有进程的内核态空间都映射到同一块物理内核内存（比如管道缓冲区、file 结构体、fd 表都存在这里）—— 进程无法直接访问，必须通过系统调用（如 read/write/fork）让内核代为操作。

四、虚拟地址 → 物理地址的映射机制（核心）

进程的虚拟地址要访问物理内存，必须经过「页表 + MMU」的映射，这是虚拟地址空间的核心底层逻辑：

1. 分页机制（内存的 “最小单位”）

内核把虚拟地址空间和物理内存都切分成固定大小的「页（Page）」（默认 4KB）：

虚拟页（Virtual Page, VP）：虚拟地址空间的最小单位；
物理页框（Physical Page Frame, PPF）：物理内存的最小单位。

映射的本质是：内核维护一张「页表（Page Table）」，记录 “虚拟页号 → 物理页框号” 的对应关系。

2. 页表结构（二级页表，32 位系统）

为了减少页表占用的内存，Linux 采用 “二级页表”（32 位）或 “四级页表”（64 位）：

一级页表（页目录表）：每个进程有一个页目录表，存放一级页表项（PDE），每个 PDE 指向一个二级页表。
二级页表（页表）：每个二级页表存放多个二级页表项（PTE），每个 PTE 记录虚拟页对应的物理页号、权限（读 / 写 / 执行）、是否存在（物理页是否已加载）等信息。

3. MMU（内存管理单元）

CPU 内置的硬件模块，负责：

接收进程的虚拟地址，拆分出 “虚拟页号 + 页内偏移”；
通过页表查找对应的物理页框号；
拼接 “物理页框号 + 页内偏移”，得到最终的物理地址；
全程由硬件自动完成，进程无感知。

4. 缺页中断（映射的 “动态性”）

如果 PTE 标记 “物理页不存在”（比如进程首次访问某部分内存，或物理页被换出到磁盘），CPU 会触发缺页中断，内核执行以下操作：

查找物理内存中是否有空闲页框，若无则通过页面置换算法（如 LRU）淘汰一个不常用的物理页（若该页被修改过，先写回磁盘）。
将磁盘上的目标页（如 ELF 文件中的代码段、交换分区中的数据）加载到空闲页框。
更新 PTE，将物理页号写入，并标记 “存在”。
重新执行触发缺页中断的指令，此时地址转换成功。

维度	虚拟地址空间（VAS）	物理内存（Physical Memory）
本质	操作系统抽象的 “地址范围”（逻辑概念）	实际的内存硬件（物理存储单元，如 DDR4）
可见性	进程可见，所有内存操作基于虚拟地址	进程不可见，仅内核能直接操作
连续性	连续（进程认为自己独占连续内存）	离散（虚拟页可映射到不连续的物理页）
大小	由 CPU 位数决定（32 位：4GB，64 位：128TB）	由硬件配置决定（如 8GB、16GB）
隔离性	进程私有，每个进程有独立的虚拟地址空间	所有进程共享，需通过映射隔离
关联方式	通过页表映射到物理内存 / 磁盘交换空间	直接存储数据，是虚拟地址的 “最终载体”

五、结合知识点（打通逻辑）

COW、fd 表、管道缓冲区，都和虚拟地址空间密切相关：

1. 写时拷贝（COW）的本质

fork 后父子进程的用户态虚拟页映射到同一个物理页，页表标记为 “只读 + COW”：

若仅读取（如通过 fd 读管道），不修改虚拟页 → 无需拷贝，共享物理页；
若修改虚拟页（如子进程 close (fd [0]) 修改 fd 表）→ 触发 COW，内核为子进程拷贝物理页，父子进程的虚拟页映射到不同物理页。

2. fd 表的位置

fd 表（文件描述符表）存放在进程的内核态虚拟地址空间（属于进程的 task_struct 结构体）：

所有进程的内核态空间都映射到同一块物理内核内存，因此 fd 表是内核维护的 “进程私有元数据”；
fork 后父子进程的 fd 表初始指向同一个 file 结构体（管道的元数据），但 fd 表本身是 COW 的 —— 修改 fd 表才会拷贝，不影响管道缓冲区。

3. 管道缓冲区的位置

管道缓冲区存放在内核态虚拟地址空间（物理内核内存），不属于任何进程的用户态空间：

进程读写管道时，是通过系统调用让内核把 “用户态虚拟地址的数据” 拷贝到 “内核态管道缓冲区”，再拷贝到另一个进程的用户态虚拟地址；
管道缓冲区是内核的公共内存，因此不触发 COW（COW 仅针对用户态共享页）。

六、常见误区纠正

“虚拟地址空间大小 = 物理内存大小”：错！虚拟地址空间大小由 CPU 架构决定（x86-64 是 128TB），远大于物理内存（比如 8GB/16GB）；
“进程能访问所有虚拟地址”：错！未映射的虚拟地址访问会触发段错误（比如直接访问 0xFFFFFFFFFFFFFFFF）；
“内核态空间是进程私有”：错！所有进程的内核态空间都映射到同一块物理内核内存，是共享的；
“虚拟地址空间是实际内存”：错！它只是 “地址范围”，只有映射到物理页 / 磁盘后才有实际存储意义。