linux内存管理之非连续物理地址分配(vmalloc)

最新推荐文章于 2025-11-25 07:55:33 发布

转载最新推荐文章于 2025-11-25 07:55:33 发布 · 914 阅读

文章标签：

#linux #struct #null #数据结构 #linux内核 #allocation

Linux 专栏收录该内容

151 篇文章

订阅专栏

本文深入解析Linux内核中vmalloc的工作原理，包括如何利用线性地址实现非连续物理内存的管理，介绍了关键数据结构vm_struct及其操作函数get_vm_area与remove_vm_area。

前面我们已分析了linux怎么利用伙伴系统,slab分配器分配内存,用这些方法得到的内存在物理地址上都是连续的,然而,有些时候,每次请求内存时,系统都分配物理地址连续的内存块是不合适的,能利用小块内存“连接”成大块可使用的内存.这在操作系统设计中也被称为 “内存拼接”,显然,内存拼接在需要较大内存,而内存访问相比之下不是非常频繁的情况下是比较有效的.
     在linux内核中用来管理内存拼接的接口是vmalloc/vfree.用vmalloc分配得到的内存在线性地址是平滑的,不过物理地址上是非连续的.
     一:准备知识:
     Linux用vm_struct结构来表示vmalloc使用的线性地址.vmalloc所使用的线性地址区间为: VMALLOC_START VMALLOC_END.借用>中的一副插图,如下示:

从上图中我们能看到每一个vmalloc_area用4KB隔开,这样做是为了非常容易就能捕捉到越界访问,因为中间是个 “空洞”.
二:相关的数据结构
下面来分析一下vmalloc area的数据结构:
struct vm_struct {
     void          *addr;             //虚拟地址
     unsigned long      size;         //vm的大小
     unsigned long      flags;        //vm的标志
     struct page        **pages;      //vm所映射的page
     unsigned int       nr_pages;     //page个数
     unsigned long      phys_addr;    //对应的起始物理地址
     struct vm_struct   *next;        //下一个vm.用来形成链表
}
全局变量vmlist用来管理vm构成的链表
全局变量vmlist用于访问vmlist所使用的信号量
对于vm_struct有两个常用的操作: get_vm_area/remove_vm_area
get_vm_area:用来分配一个合适大小的vm结构,分配成功之后,将其链入到vmlist中,代码在 mm/vmalloc.c中.如下示:
//size为vm的大小
struct vm_struct *get_vm_area(unsigned long size, unsigned long flags)
{
     //在VMALLOC_START和VMALLOC_END找到一段合适的空间
     return __get_vm_area(size, flags, VMALLOC_START, VMALLOC_END);
}
//参数说明:
//start:起始地址 end:结束地址 size 空间大小
struct vm_struct *__get_vm_area(unsigned long size, unsigned long flags,
                   unsigned long start, unsigned long end)
{
     struct vm_struct **p, *tmp, *area;
     unsigned long align = 1;
     unsigned long addr;

     //如果指定了VM_IOREMAP.则调整对齐因子
     if (flags & VM_IOREMAP) {
         int bit = fls(size);

         if (bit > IOREMAP_MAX_ORDER)
              bit = IOREMAP_MAX_ORDER;
         else if (bit
              bit = PAGE_SHIFT;

         align = 1ul
     }
     //将起始地址按照对齐因子对齐
     addr = ALIGN(start, align);
     //分配一个vm_struct结构空间
     area = kmalloc(sizeof(*area), GFP_KERNEL);
     if (unlikely(!area))
         return NULL;

     //PAGE_SIZE:在i32中为4KB,即上面所说的间隔空洞
     size += PAGE_SIZE;
     if (unlikely(!size)) {
         kfree (area);
         return NULL;
     }

     write_lock(&vmlist_lock);
     //遍历vmlist:找到合适大小的末使用空间
     for (p = &vmlist; (tmp = *p) != NULL ;p = &tmp->next) {
         //若起始地址落在某一个vm区间,则调整起始地址为vm区间的末尾
         if ((unsigned long)tmp->addr
              if((unsigned long)tmp->addr + tmp->size >= addr)
                   addr = ALIGN(tmp->size +
                            (unsigned long)tmp->addr, align);
              continue;
         }
         //size+addr 除非size == 0
         if ((size + addr)
              goto out;
         //中间的空隙能容纳下size大小的vm.说明已找到了这样的一个vm
         if (size + addr addr)
              goto found;
         //调整起始地址为vm的结束地址
         addr = ALIGN(tmp->size + (unsigned long)tmp->addr, align);
         //如果超出了范围
         if (addr > end - size)
              goto out;
     }

found:
     //找到了合适大小的空间,将area->addr赋值为addr,然后链入vmlist中
     area->next = *p;
     *p = area;

     area->flags = flags;
     area->addr = (void *)addr;
     area->size = size;
     area->pages = NULL;
     area->nr_pages = 0;
     area->phys_addr = 0;
     write_unlock(&vmlist_lock);

return area;

out:
     //没有找到合适大小的空间,出错返回
     write_unlock(&vmlist_lock);
     kfree(area);
     if (printk_ratelimit())
         printk(KERN_WARNING "allocation failed: out of vmalloc space - use vmalloc= to increase size.＼n");
     return NULL;
}
这段代码不是非常复杂,在此不周详分析了.
remove_vm_area用来将相应的vm从vmlist中断开,使其表示的空间能被利用
//addr:对应vm的超始地址
struct vm_struct *remove_vm_area(void *addr)
{
     struct vm_struct **p, *tmp;

     write_lock(&vmlist_lock);
     //遍历vmlist.找到超始地址为addr的vm
for (p = &vmlist ; (tmp = *p) != NULL ;p = &tmp->next) {
          if (tmp->addr == addr)
               goto found;
     }
     write_unlock(&vmlist_lock);
     return NULL;

found:
     //断开tmp所对应的映射关系
     unmap_vm_area(tmp);
     //找到了这个vm,将其从vmlist上断开
     *p = tmp->next;
     write_unlock(&vmlist_lock);
     return tmp;
}
unmap_vm_area用来断开vm所在线性地址所对应的映射关系.他的代码如下:
void unmap_vm_area(struct vm_struct *area)
{
     //vm所对应的起始线性地址
     unsigned long address = (unsigned long) area->addr;
     //vm所对应的结束线性地址
     unsigned long end = (address + area->size);
     pgd_t *dir;
     //起始地址所在的内核页目录项
     dir = pgd_offset_k(address);
     flush_cache_vunmap(address, end);
     do {
         //断开地址所对应的pmd映射
         unmap_area_pmd(dir, address, end - address);
//运行到这里的时候,已断开了一个页目录所表示的线性地址,而每个页目录表示的线性地址//大小为PGDIR_SIZE
         address = (address + PGDIR_SIZE) & PGDIR_MASK;
         dir++;
     } while (address && (address
     //当到达末尾时结束循环
     flush_tlb_kernel_range((unsigned long) area->addr, end);
}
//断开线性地址区间所在的pmd的映射
static void unmap_area_pmd(pgd_t *dir, unsigned long address,
                     unsigned long size)
{
     unsigned long end;
     pmd_t *pmd;

     if (pgd_none(*dir))
         return;
     if (pgd_bad(*dir)) {
         pgd_ERROR(*dir);
         pgd_clear(dir);
         return;
     }

     pmd = pmd_offset(dir, address);
     address &= ~PGDIR_MASK;
     end = address + size;
     if (end > PGDIR_SIZE)
         end = PGDIR_SIZE;

     do {
         //断开线性地址所在的pte的映射关系
         unmap_area_pte(pmd, address, end - address);
         address = (address + PMD_SIZE) & PMD_MASK;
         pmd++;
     } while (address
}
static void unmap_area_pte(pmd_t *pmd, unsigned long address,
                     unsigned long size)
{
     unsigned long end;
     pte_t *pte;

     if (pmd_none(*pmd))
         return;
     if (pmd_bad(*pmd)) {
         pmd_ERROR(*pmd);
         pmd_clear(pmd);
         return;
     }

     pte = pte_offset_kernel(pmd, address);
     address &= ~PMD_MASK;
     end = address + size;
     if (end > PMD_SIZE)
         end = PMD_SIZE;

     do {
         pte_t page;
         //清除pte的对应映射关系
page = ptep_get_and_clear(pte);
         address += PAGE_SIZE;
         pte++;
         if (pte_none(page))
              continue;
         if (pte_present(page))
              continue;
         printk(KERN_CRIT "Whee.. Swapped out page in kernel page table＼n");
     } while (address
}
经过这几个过程之后,实际上,他只是找到线性地址所对应的pte,然后断开pte的映射.值得注意的是:为了效率起见,这里只是断开了pte的映射,即只是将pte置为none,表示pte末映射内存.并末断开pmd和pgd的映射