mmap是什么，为什么？

最新推荐文章于 2025-11-01 13:39:13 发布

原创

最新推荐文章于 2025-11-01 13:39:13 发布 · 1.7k 阅读

CC 4.0 BY-SA版权

这一段搞文件系统的索引的事情，因为使用的copy from user 和copy to user等方式，进行核内核外数据交换，效率较低。例如，对于使用O_DIRECT方式的写操作，因为要加索引，所以刚开始原始数据在iovec中，但是内核态并不能对它修改。需要先复制到内核空间，然后改完之后，复制回用户空间，来回复制太麻烦了。考虑到效率问题，开始研究mmap这种方式，最起码它不需要再核内核外进行交换了，最少是少了一次复制。

mmap基础概念

mmap是一种内存映射文件的方法，即将一个文件或者其它对象映射到进程的地址空间，实现文件磁盘地址和进程虚拟地址空间中一段虚拟地址的一一对映关系。实现这样的映射关系后，进程就可以采用指针的方式读写操作这一段内存，而系统会自动回写脏页面到对应的文件磁盘上，即完成了对文件的操作而不必再调用read,write等系统调用函数。相反，内核空间对这段区域的修改也直接反映用户空间，从而可以实现不同进程间的文件共享。如下图所示：

由上图可以看出，进程的虚拟地址空间，由多个虚拟内存区域构成。虚拟内存区域是进程的虚拟地址空间中的一个同质区间，即具有同样特性的连续地址范围。上图中所示的text数据段（代码段）、初始数据段、BSS数据段、堆、栈和内存映射，都是一个独立的虚拟内存区域。而为内存映射服务的地址空间处在堆栈之间的空余部分。注意，内存映射使用的是堆和栈之间的区域，也属于用户空间（这段区域不属于内核空间）。

linux内核使用vm_area_struct结构来表示一个独立的虚拟内存区域（就是用一个数据结构来描述一段区域，相当于用inode描述磁盘上的文件），由于每个不同质的虚拟内存区域功能和内部机制都不同，因此一个进程使用多个vm_area_struct结构来分别表示不同类型的虚拟内存区域。各个vm_area_struct结构使用链表或者树形结构链接，方便进程快速访问，如下图所示：

vm_area_struct结构中包含区域起始和终止地址以及其他相关信息，同时也包含一个vm_ops指针，其内部可引出所有针对这个区域可以使用的系统调用函数。这样，进程对某一虚拟内存区域的任何操作需要用要的信息，都可以从vm_area_struct中获得。mmap函数就是要创建一个新的vm_area_struct结构，并将其与文件的物理磁盘地址相连。具体步骤请看下一节。