linux内存管理--缺页异常处理

本文深入探讨了Linux内核中缺页异常的处理机制,包括四种常见情形及异常处理过程,从用户态与内核态的角度出发,详细解析了如何在不同情况下进行错误检测、地址验证和内存管理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 缺页异常在linux内核处理中占有非常重要的位置,很多linux特性,如写时复制,页框延迟分配,内存回收中的磁盘和内存交换,都需要借助缺页异常来进行,缺页异常处理程序主要处理以下四种情形:
1请求调页: 当进程调用malloc()之类的函数调用时,并未实际上分配物理内存,而是仅仅分配了一段线性地址空间,在实际访问该页框时才实际去分配物理页框,这样可以节省物理内存的开销,还有一种情况是在内存回收时,该物理页面的内容被写到了磁盘上,被系统回收了,这时候需要再分配页框,并且读取其保存的内容。
2写时复制:当fork()一个进程时,子进程并未完整的复制父进程的地址空间,而是共享相关的资源,父进程的页表被设为只读的,当子进程进行写操作时,会触发缺页异常,从而为子进程分配页框。
3地址范围外的错误:内核访问无效地址,用户态进程访问无效地址等。
4内核访问非连续性地址:用于内核的高端内存映射,高端内存映射仅仅修改了主内核页表的内容,当进程访问内核态时需要将该部分的页表内容复制到自己的进程页表里面。


2 缺页异常处理程序有可能发生在用户态或者内核态的代码中,在这两种形态下,有可能访问的是内核空间或者用户态空间的内存地址,因此,按照排列组合,需要考虑下列的四种情形,如图所示:

1缺页异常发生在内核态

2缺页异常发生在用户态

3源代码分析(选自2.6.10内核)


  1. 3.1do_page_fault()
  2. fastcallvoiddo_page_fault(structpt_regs*regs,unsignedlongerror_code)
  3. {
  4. structtask_struct*tsk;
  5. structmm_struct*mm;
  6. structvm_area_struct*vma;
  7. unsignedlongaddress;
  8. unsignedlongpage;
  9. intwrite;
  10. siginfo_tinfo;
  11. //将引发缺页异常的线性地址保存在address变量里面
  12. __asm__("movl%%cr2,%0":"=r"(address));
  13. if(notify_die(DIE_PAGE_FAULT,"pagefault",regs,error_code,14,
  14. SIGSEGV)==NOTIFY_STOP)
  15. return;
  16. tsk=current;
  17. //info是内核发送信号使用的信息结构体
  18. info.si_code=SEGV_MAPERR;
  19. //该分支表明发生缺页时是发生在访问内核空间时
  20. if(unlikely(address>=TASK_SIZE)){
  21. //该分支表示发生缺页异常时,代码是在内核态访问内核态不存在
  22. //的地址,转到vmalloc_fault处理分支,可能是访问了不连续的内核页面
  23. if(!(error_code&5))
  24. gotovmalloc_fault;
  25. //做相应出错处理
  26. gotobad_area_nosemaphore;
  27. }
  28. mm=tsk->mm;
  29. //在中断或者软中断中访问用户态空间,发生问题,是不可以的,因为中断或者
  30. //软中断不代表任何的进程,mm为NULL代表着该进程是内核线程,内核线程
  31. //继承了上一个普通进程页表,不能对其进行修改
  32. if(in_atomic()||!mm)
  33. gotobad_area_nosemaphore;
  34. //尝试获取到读锁,若获得读锁失败时
  35. if(!down_read_trylock(&mm->mmap_sem)){
  36. //在内核态访问用户态的地址,这种情况发生在在
  37. //进程的系统调用中去访问用户态的地址,在访问
  38. //地址前,内核是不会去写对应的读锁的,所以可能是
  39. //别的进程写了,相应的锁,所以需要等待,其它情况
  40. //属于错误情况
  41. if((error_code&4)==0&&
  42. !search_exception_tables(regs->eip))
  43. gotobad_area_nosemaphore;
  44. down_read(&mm->mmap_sem);
  45. }
  46. //下面这几句话是来判断出错地址是否在进程的线性区内
  47. vma=find_vma(mm,address);
  48. //不在线性区内,地址错误
  49. if(!vma)
  50. gotobad_area;
  51. //在线性区内,跳到正常处理部分
  52. if(vma->vm_start<=address)
  53. gotogood_area;
  54. //下面这些代码属于扩展进程栈的相关处理,该地址可能由push或者pusha指令引起
  55. //向低地址扩展的栈其线性区的标志位会置上VM_GROWSDOWN
  56. if(!(vma->vm_flags&VM_GROWSDOWN))
  57. gotobad_area;
  58. if(error_code&4){//异常发生在用户态
  59. //对于栈操作,发生错误的内存地址不应该比esp小太多,不该小32
  60. //个字节以上
  61. if(address+32<regs->esp)
  62. gotobad_area;
  63. }
  64. //扩展进程的用户态堆栈
  65. if(expand_stack(vma,address))
  66. gotobad_area;
  67. good_area:
  68. info.si_code=SEGV_ACCERR;
  69. write=0;
  70. switch(error_code&3){
  71. default://写,存在该页框,写时复制的情况
  72. case2://写但不存在该页框
  73. //该线性区不让写,发生错误
  74. if(!(vma->vm_flags&VM_WRITE))
  75. gotobad_area;
  76. write++;
  77. break;
  78. case1://读,存在该页框
  79. gotobad_area;
  80. case0://读但是不存在该页框,缺页,需要进行调页
  81. if(!(vma->vm_flags&(VM_READ|VM_EXEC)))
  82. gotobad_area;
  83. }
  84. survive:
  85. //在handle_mm_fault()函数里面处理缺页的情况
  86. switch(handle_mm_fault(mm,vma,address,write)){
  87. caseVM_FAULT_MINOR:
  88. //在没有阻塞的情况下,完成了调页
  89. tsk->min_flt++;
  90. break;
  91. caseVM_FAULT_MAJOR:
  92. //在阻塞的情况下,完成了调页操作
  93. tsk->maj_flt++;
  94. break;
  95. caseVM_FAULT_SIGBUS:
  96. //发生其他错误
  97. gotodo_sigbus;
  98. caseVM_FAULT_OOM:
  99. //内存不足
  100. gotoout_of_memory;
  101. default:
  102. BUG();
  103. }
  104. /*
  105. *DidithittheDOSscreenmemoryVAfromvm86mode?
  106. */
  107. if(regs->eflags&VM_MASK){
  108. unsignedlongbit=(address-0xA0000)>>PAGE_SHIFT;
  109. if(bit<32)
  110. tsk->thread.screen_bitmap|=1<<bit;
  111. }
  112. up_read(&mm->mmap_sem);
  113. return;
  114. /*
  115. *Somethingtriedtoaccessmemorythatisn'tinourmemorymap..
  116. *Fixit,butcheckifit'skerneloruserfirst..
  117. */
  118. bad_area:
  119. up_read(&mm->mmap_sem);
  120. bad_area_nosemaphore:
  121. //该错误发生在用户态代码访问时
  122. if(error_code&4){
  123. if(is_prefetch(regs,address,error_code))
  124. return;
  125. tsk->thread.cr2=address;
  126. tsk->thread.error_code=error_code|(address>=TASK_SIZE);
  127. tsk->thread.trap_no=14;
  128. info.si_signo=SIGSEGV;
  129. info.si_errno=0;
  130. info.si_addr=(void__user*)address;
  131. //发送sigsegv信号给当前的进程
  132. force_sig_info(SIGSEGV,&info,tsk);
  133. return;
  134. }
  135. //剩下的错误,发生在内核态
  136. no_context:
  137. //是否有动态修正代码,该异常通常发生在将用户态线性地址
  138. //作为参数传递给了系统调用,该错误发生在内核态访问一个
  139. //用户态地址,但用户态地址不属于进程的地址空间
  140. if(fixup_exception(regs))
  141. return;
  142. if(is_prefetch(regs,address,error_code))
  143. return;
  144. bust_spinlocks(1);
  145. //发生了真正的内核错误,往输出上打印相关错误信息
  146. if(address<PAGE_SIZE)
  147. printk(KERN_ALERT"UnabletohandlekernelNULLpointerdereference");
  148. else
  149. printk(KERN_ALERT"Unabletohandlekernelpagingrequest");
  150. printk("atvirtualaddress%08lx\n",address);
  151. printk(KERN_ALERT"printingeip:\n");
  152. printk("%08lx\n",regs->eip);
  153. asm("movl%%cr3,%0":"=r"(page));
  154. page=((unsignedlong*)__va(page))[address>>22];
  155. printk(KERN_ALERT"*pde=%08lx\n",page);
  156. #ifndefCONFIG_HIGHPTE
  157. if(page&1){
  158. page&=PAGE_MASK;
  159. address&=0x003ff000;
  160. page=((unsignedlong*)__va(page))[address>>PAGE_SHIFT];
  161. printk(KERN_ALERT"*pte=%08lx\n",page);
  162. }
  163. #endif
  164. //产生Oops的消息
  165. die("Oops",regs,error_code);
  166. bust_spinlocks(0);
  167. //退出相关进程
  168. do_exit(SIGKILL);
  169. out_of_memory:
  170. //内存不足,删除当前进程
  171. up_read(&mm->mmap_sem);
  172. if(tsk->pid==1){
  173. yield();
  174. down_read(&mm->mmap_sem);
  175. gotosurvive;
  176. }
  177. printk("VM:killingprocess%s\n",tsk->comm);
  178. if(error_code&4)//用户态进程,杀死用户态进程
  179. do_exit(SIGKILL);
  180. gotono_context;
  181. do_sigbus:
  182. //发送SIGBUS信号给当前进程
  183. up_read(&mm->mmap_sem);
  184. //内核态进程,生成oops等
  185. if(!(error_code&4))
  186. gotono_context;
  187. if(is_prefetch(regs,address,error_code))
  188. return;
  189. //用户态进程的话,发送SIGBUS给当前用户态进程
  190. tsk->thread.cr2=address;
  191. tsk->thread.error_code=error_code;
  192. tsk->thread.trap_no=14;
  193. info.si_signo=SIGBUS;
  194. info.si_errno=0;
  195. info.si_code=BUS_ADRERR;
  196. info.si_addr=(void__user*)address;
  197. force_sig_info(SIGBUS,&info,tsk);
  198. return;
  199. vmalloc_fault:
  200. {
  201. //在内核态访问内核空间内存,访问非连续性内存
  202. intindex=pgd_index(address);
  203. unsignedlongpgd_paddr;
  204. pgd_t*pgd,*pgd_k;
  205. pmd_t*pmd,*pmd_k;
  206. pte_t*pte_k;
  207. asm("movl%%cr3,%0":"=r"(pgd_paddr));
  208. pgd=index+(pgd_t*)__va(pgd_paddr);
  209. pgd_k=init_mm.pgd+index;
  210. if(!pgd_present(*pgd_k))
  211. gotono_context;
  212. pmd=pmd_offset(pgd,address);
  213. pmd_k=pmd_offset(pgd_k,address);
  214. if(!pmd_present(*pmd_k))
  215. gotono_context;
  216. //主要操作就是把主内核页表上对应的表项复制到当前进程的页表中
  217. set_pmd(pmd,*pmd_k);
  218. pte_k=pte_offset_kernel(pmd_k,address);
  219. if(!pte_present(*pte_k))
  220. gotono_context;
  221. return;
  222. }
  223. }
  224. 3.2handle_mm_fault()
  225. inthandle_mm_fault(structmm_struct*mm,structvm_area_struct*vma,
  226. unsignedlongaddress,intwrite_access)
  227. {
  228. pgd_t*pgd;
  229. pmd_t*pmd;
  230. __set_current_state(TASK_RUNNING);
  231. pgd=pgd_offset(mm,address);
  232. inc_page_state(pgfault);
  233. if(is_vm_hugetlb_page(vma))
  234. returnVM_FAULT_SIGBUS;
  235. spin_lock(&mm->page_table_lock);
  236. //找到相应的pmd表的地址,没有的话,分配一个
  237. pmd=pmd_alloc(mm,pgd,address);
  238. if(pmd){
  239. //找到对应的pte表的地址,即页表的地址,找不到
  240. //的话,分配一个
  241. pte_t*pte=pte_alloc_map(mm,pmd,address);
  242. //进行相应的缺页处理:
  243. //1请求调页,2写时复制
  244. if(pte)
  245. returnhandle_pte_fault(mm,vma,address,write_access,pte,pmd);
  246. }
  247. spin_unlock(&mm->page_table_lock);
  248. returnVM_FAULT_OOM;
  249. }
  250. 3.3handle_pte_fault()
  251. staticinlineinthandle_pte_fault(structmm_struct*mm,
  252. structvm_area_struct*vma,unsignedlongaddress,
  253. intwrite_access,pte_t*pte,pmd_t*pmd)
  254. {
  255. pte_tentry;
  256. entry=*pte;
  257. if(!pte_present(entry)){
  258. //页面从未被访问过,需要申请页面进行调页,匿名映射
  259. //或者是磁盘文件映射都有可能
  260. if(pte_none(entry))
  261. returndo_no_page(mm,vma,address,write_access,pte,pmd);
  262. //非线性磁盘文件映射
  263. if(pte_file(entry))
  264. returndo_file_page(mm,vma,address,write_access,pte,pmd);
  265. //相关页框被作为交换页写到了磁盘上
  266. returndo_swap_page(mm,vma,address,pte,pmd,entry,write_access);
  267. }
  268. //写时复制
  269. if(write_access){
  270. if(!pte_write(entry))
  271. returndo_wp_page(mm,vma,address,pte,pmd,entry);
  272. entry=pte_mkdirty(entry);
  273. }
  274. entry=pte_mkyoung(entry);
  275. ptep_set_access_flags(vma,address,pte,entry,write_access);
  276. update_mmu_cache(vma,address,entry);
  277. pte_unmap(pte);
  278. spin_unlock(&mm->page_table_lock);
  279. returnVM_FAULT_MINOR;
  280. }
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值