再探mmap（Memory Mapped File）

最新推荐文章于 2025-07-03 16:12:32 发布

原创最新推荐文章于 2025-07-03 16:12:32 发布 · 966 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#mmap #操作系统

工程化C 同时被 2 个专栏收录

58 篇文章

订阅专栏

CSAPP

25 篇文章

订阅专栏

mmap（Memory Mapped File）是一种将文件映射到虚拟内存地址空间的机制，它使得文件内容可以像内存一样直接进行访问。通过mmap，文件内容可以在内存中直接读写，而不必通过传统的read和write系统调用。下面我们探究一下mmap的底层原理。

1. 基本概念与机制

mmap的主要目的是将一个文件（或设备）的内容映射到进程的地址空间，允许进程通过内存访问来读写文件内容。文件的内容通过虚拟内存页面映射到物理内存或页缓存中，而访问这些内容的方式与访问普通内存一致。

mmap函数的原型在POSIX标准中定义如下：

void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset);

addr: 指定映射的起始地址，通常传递NULL让内核选择合适的地址。
length: 映射的长度。
prot: 保护标志，定义映射区域的权限（如只读、可写等）。
flags: 控制映射的行为，比如是否共享、是否私有等。
fd: 打开的文件描述符，用于指定要映射的文件。
offset: 文件的偏移量，指定从文件的哪个位置开始映射。

调用成功后，返回值是一个指向映射区域起始位置的指针。

2. 底层原理

从底层来看，mmap涉及到的主要操作包括：

2.1 虚拟内存和物理内存映射

mmap的关键是将文件或设备的内容映射到进程的虚拟内存地址空间，这种机制主要依赖于操作系统的虚拟内存管理。具体步骤如下：

虚拟内存分配：
- 当mmap调用时，内核会为当前进程分配一段虚拟内存地址空间，映射的文件内容可以通过这段虚拟地址空间进行访问。内核不会立即将物理内存分配给这些地址，只是创建了虚拟内存到文件的映射。
延迟加载（Lazy Loading）：
- mmap的延迟加载机制意味着在mmap成功调用后，内核不会立即将整个文件加载到物理内存中。相反，内核只是建立虚拟地址空间和文件之间的映射。当进程第一次访问映射的地址（如读取或写入），发生缺页异常（Page Fault）时，内核才会从文件中读取相应的内容加载到物理内存。
页表的更新：
- 当进程访问映射区域时，内核会查找页表，发现该地址尚未映射到物理内存，就会触发缺页异常。
- 内核会从文件中读取相应的页，将其加载到物理内存中，然后更新进程的页表，指向新的物理页。
内存与文件的同步：
- 如果映射区域的权限允许写入，那么进程修改映射区域内的内容时，内核会将这些修改记录在内存中，但并不会立即写回到文件。
- 如果mmap的标志中指定了MAP_SHARED，则内核会在适当的时候（如刷新文件缓存或调用msync时）将内存中的内容同步回文件。
- 如果使用MAP_PRIVATE，则内存中的修改对文件是不可见的，修改后的内容仅对当前进程有效，其他进程不会看到这些变化。

2.2 文件与内存的关系

页缓存：在mmap实现中，文件数据被加载到物理内存的页缓存（Page Cache）中。页缓存是操作系统用来暂存文件数据的区域，允许文件的读写操作通过缓存进行。
同步与异步：当数据被修改时，页缓存中的数据可能会与磁盘上的文件不一致。为了避免数据丢失，系统可以在特定情况下将页缓存中的数据刷回磁盘，如使用msync或者当文件关闭时。

2.3 虚拟内存与分页机制

分页机制是现代操作系统虚拟内存管理的核心。操作系统通过分页将文件内容映射到进程的虚拟内存地址空间。
每当进程访问某个映射地址时，如果对应的物理页还没有加载，操作系统会通过缺页中断读取文件的相应页。
页的大小通常是4KB或更大，具体取决于系统的内存分页机制。

3. 性能与优势

mmap与传统的read和write调用相比具有以下优势：

减少内核态和用户态切换：
- mmap可以通过内存映射直接访问文件的内容，避免了频繁的read/write系统调用，从而减少了用户态与内核态的上下文切换。
高效的文件访问：
- 文件的内容映射到内存后，进程可以像访问内存一样对文件内容进行操作，而无需缓冲区拷贝。对于大文件访问尤其高效。
延迟加载（Lazy Loading）：
- mmap不会在映射时加载整个文件，只会在实际访问到页面时才加载。这种按需加载的机制可以节省内存资源，尤其是当只需要访问文件的部分内容时。
文件共享与进程间通信：
- 通过MAP_SHARED标志，不同进程可以共享同一个文件的映射区域，允许进程间通过内存进行数据通信。这种共享内存机制非常高效，因为不需要额外的拷贝操作。

4. 使用场景

大文件读写：mmap特别适合于处理大文件，可以直接在内存中操作文件的部分内容，而不需要将整个文件加载到内存中。
进程间通信（IPC）：通过共享内存文件映射，多个进程可以快速共享数据，避免了传统管道和消息队列的开销。
内存映射数据库：许多数据库系统（如SQLite）利用mmap将文件直接映射到内存中，提供更快的数据访问速度。
设备驱动和内核编程：mmap常用于访问特定的硬件设备或内存区域，比如将设备的寄存器映射到用户空间进行控制。

5. 与传统I/O的比较

传统I/O (read/write)：每次访问文件时，必须通过系统调用，将文件中的数据读到用户态缓冲区或者将缓冲区中的数据写回文件，涉及到多个内存拷贝和系统调用开销。
mmap：通过内存映射，文件内容直接加载到进程的虚拟内存空间中，访问文件的过程变成了访问内存，减少了系统调用的开销，避免了不必要的拷贝操作，效率更高。

6. 可能的问题

内存占用：当一个非常大的文件被映射到内存时，如果进程频繁访问文件的不同部分，可能会占用大量的物理内存，甚至导致内存不足。
同步问题：mmap在进行写操作时，写回文件的过程并不是实时的，如果系统崩溃或者程序没有正确关闭，可能会导致数据丢失。因此，使用msync同步数据非常重要。
兼容性问题：不同操作系统对mmap的实现细节可能会有所不同，比如Windows的CreateFileMapping和MapViewOfFile是类似的实现。