用户空间缺页异常pte_handle_fault()分析--(上)

本文深入剖析Linux内核处理用户空间缺页异常的过程,重点介绍handle_mm_fault函数内部实现,包括不同场景下页表项状态判断及相应处理流程,如基于文件映射页和匿名页的分配。

前面简单的分析了内核处理用户空间缺页异常的流程,进入到了handle_mm_fault()函数,该函数为触发缺页异常的地址address分配各级的页目录,也就是说现在已经拥有了一个和address配对的pte了,但是这个pte如何去映射物理页框,内核又得根据pte的状态进行分类和判断,而这个过程又会牵扯出一些其他的概念……这也是初读linux内核源码的最大障碍吧,在一些复杂的处理中,一个点往往可以延伸出一个面,容易让人迷失方向……因此后面打算分几次将这个函数分析完,自己也没有完全理解透,所以不到位的地方欢迎大家指出,一起交流~

static inline int handle_pte_fault(struct mm_struct *mm,
		struct vm_area_struct *vma, unsigned long address,
		pte_t *pte, pmd_t *pmd, unsigned int flags)
{
	pte_t entry;
	spinlock_t *ptl;

	entry = *pte;
	if (!pte_present(entry)) {//如果页不在主存中
		if (pte_none(entry)) {//页表项内容为0,表明进程未访问过该页

			/*如果vm_ops字段和fault字段都不为空,则说明这是一个基于文件的映射*/
			if (vma->vm_ops) {
				if (likely(vma->vm_ops->fault))
					return do_linear_fault(mm, vma, address,
						pte, pmd, flags, entry);
			}
			/*否则分配匿名页*/
			return do_anonymous_page(mm, vma, address,
						 pte, pmd, flags);
		}

		/*属于非线性文件映射且已被换出*/
		if (pte_file(entry))
			return do_nonlinear_fault(mm, vma, address,
					pte, pmd, flags, entry);

		/*页不在主存中,但是页表项保存了相关信息,则表明该页被内核换出,则要进行换入操作*/
		return do_swap_page(mm, vma, address,
					pte, pmd, flags, entry);
	}
          
         ...
         ...

}

首先要确定的一点就是pte对应的页是否驻留在主存中,因为pte有可能之前映射了页,但是该页被换出了。上面的代码给出了pte对应的页没有驻留在主存中的情况。如果pte对应的页没有驻留在主存中,且没有映射任何页,即pte_present()返回0,pte_none()返回0,则要判断要分配一个匿名页还是一个映射页。在Linux虚拟内存中,如果页对应的vma映射的是文件,则称为映射页,如果不是映射的文件,则称为匿名页。两者最大的区别体现在页和vma的组织上,因为在页框回收处理时要通过页来逆向搜索映射了该页的vma。对于匿名页的逆映射,vma都是通过vma结构体中的vma_anon_node(链表节点)和anon_vma(链表头)组织起来,再把该链表头的信息保存在页描述符中;而映射页和vma的组织是通过vma中的优先树节点和页描述符中的mapping->i_mmap优先树树根进行组织的,具体可以参看ULK3。

来看基于文件的映射的处理:

static int do_linear_fault(struct mm_struct *mm, struct vm_area_struct *vma,
		unsigned long address, pte_t *page_table, pmd_t *pmd,
		unsigned int flags, pte_t orig_pte)
{
	pgoff_t pgoff = (((address & PAGE_MASK)
			- vma->vm_start) >> PAGE_SHIFT) + vma->vm_pgoff;

	pte_unmap(page_table);//如果page_table之前用来建立了临时内核映射,则释放该映射
	return __do_fault(mm, vma, address, pmd, pgoff, flags, orig_pte);
}

关键函数__do_fault():

static int __do_fault(struct mm_struct *mm, struct vm_area_struct *vma,
		unsigned long address, pmd_t *pmd,
		pgoff_t pgoff, unsigned int flags, pte_t orig_pte)
{
	pte_t *page_table;
	spinlock_t *ptl;
	struct page *page;
	pte_t entry;
	int anon = 0;
	int charged = 0;
	struct page *dirty_page = NULL;
	struct vm_fault vmf;
	int ret;
	int page_mkwrite = 0;

	vmf.virtual_address = (void __user *)(address & PAGE_MASK);
	vmf.pgoff = pgoff;
	vmf.flags = flags;
	vmf.page = NULL;

	ret = vma->vm_ops->fault(vma, &vmf);//调用定义好的fault函数,确保将所需的文件数据读入到映射页
	
	if (unlikely(ret & (VM_FAULT_ERROR | VM_FAULT_NOPAGE)))
		return ret;

	if (unlikely(PageHWPoison(vmf.page))) {
		if (ret & VM_FAULT_LOCKED)
			unlock_page(vmf.page);
		return VM_FAULT_HWPOISON;
	}

	/*
	 * For consistency in subsequent calls, make the faulted page always
	 * locked.
	 */
	if (unlikely(!(ret & VM_FAULT_LOCKED)))
		lock_page(vmf.page);
	else
		VM_BUG_ON(!PageLocked(vmf.page));

	/*
	 * Should we do an early C-O-W break?
	 */
	page = vmf.page;
	if (flags & FAULT_FLAG_WRITE) {//写访问
		if (!(vma->vm_flags & VM_SHARED)) {//私有映射,则要创建一个副本进行写时复制
			anon = 1;// 标记为一个匿名映射
			if (unlikely(anon_vma_prepare(vma))) {//创建一个anon_vma实例给vma
				ret = VM_FAULT_OOM;
				goto out;
			}
			page = alloc_page_vma(GFP_HIGHUSER_MOVABLE,//分配一个页
						vma, address);
			if (!page) {
				ret = VM_FAULT_OOM;
				goto out;
			}
			if (mem_cgroup_newpage_charge(page, mm, GFP_KERNEL)) {
				ret = VM_FAULT_OOM;
				page_cache_release(page);
				goto out;
			}
			charged = 1;
			/*
			 * Don't let another task, with possibly unlocked vma,
			 * keep the mlocked page.
			 */
			if (vma->vm_flags & VM_LOCKED)
				clear_page_mlock(vmf.page);
			/*创建数据的副本,将数据拷贝到新分配的页*/
			copy_user_highpage(page, vmf.page, address, vma);
			__SetPageUptodate(page);
		} else {
			/*
			 * If the page will be shareable, see if the backing
			 * address space wants to know that the page is about
			 * to become writable
			 */
			if (vma->vm_ops->page_mkwrite) {
				int tmp;

				unlock_page(page);
				vmf.flags = FAULT_FLAG_WRITE|FAULT_FLAG_MKWRITE;
				tmp = vma->vm_ops->page_mkwrite(vma, &vmf);
				if (unlikely(tmp &
					  (VM_FAULT_ERROR | VM_FAULT_NOPAGE))) {
					ret = tmp;
					goto unwritable_page;
				}
				if (unlikely(!(tmp & VM_FAULT_LOCKED))) {
					lock_page(page);
					if (!page->mapping) {
						ret = 0; /* retry the fault */
						unlock_page(page);
						goto unwritable_page;
					}
				} else
					VM_BUG_ON(!PageLocked(page));
				page_mkwrite = 1;
			}
		}

	}

	page_table = pte_offset_map_lock(mm, pmd, address, &ptl);

	/*
	 * This silly early PAGE_DIRTY setting removes a race
	 * due to the bad i386 page protection. But it's valid
	 * for other architectures too.
	 *
	 * Note that if FAULT_FLAG_WRITE is set, we either now have
	 * an exclusive copy of the page, or this is a shared mapping,
	 * so we can make it writable and dirty to avoid having to
	 * handle that later.
	 */
	/* Only go through if we didn't race with anybody else... */
	if (likely(pte_same(*page_table, orig_pte))) {//确定没有竞争,也就是页表项中的内容和之前是一样的
		flush_icache_page(vma, page);
		entry = mk_pte(page, vma->vm_page_prot);//页表项指向对应的物理页

		/*如果是写操作,则将页的访问权限置为RW*/
		if (flags & FAULT_FLAG_WRITE)
			entry = maybe_mkwrite(pte_mkdirty(entry), vma);

		/*如果之前生成的页是匿名的,则将其集成到逆向映射当中*/
		if (anon) {
			inc_mm_counter(mm, anon_rss);
			page_add_new_anon_rmap(page, vma, address);//建立匿名页与第一个vma的逆向映射
		} else {
			inc_mm_counter(mm, file_rss);
			page_add_file_rmap(page);//建立页与vma的普通映射
			if (flags & FAULT_FLAG_WRITE) {
				dirty_page = page;
				get_page(dirty_page);
			}
		}
		set_pte_at(mm, address, page_table, entry);//修改page_table使其指向entry对应的页框

		/* no need to invalidate: a not-present page won't be cached */
		update_mmu_cache(vma, address, entry);
	} else {
		if (charged)
			mem_cgroup_uncharge_page(page);
		if (anon)
			page_cache_release(page);
		else
			anon = 1; /* no anon but release faulted_page */
	}

	pte_unmap_unlock(page_table, ptl);

out:
	if (dirty_page) {
		struct address_space *mapping = page->mapping;

		if (set_page_dirty(dirty_page))
			page_mkwrite = 1;
		unlock_page(dirty_page);
		put_page(dirty_page);
		if (page_mkwrite && mapping) {
			/*
			 * Some device drivers do not set page.mapping but still
			 * dirty their pages
			 */
			balance_dirty_pages_ratelimited(mapping);
		}

		/* file_update_time outside page_lock */
		if (vma->vm_file)
			file_update_time(vma->vm_file);
	} else {
		unlock_page(vmf.page);
		if (anon)
			page_cache_release(vmf.page);
	}

	return ret;

unwritable_page:
	page_cache_release(page);
	return ret;
}



首先要做的就是调用vma->vm_ops中定义好的fault()函数,将所需的数据从文件读入到映射页中,该函数还会将vma插入到映射页的mapping->i_mmap优先树中。

文件一般以共享的方式进行映射,接下来就要判断触发异常的操作是否包含写操作,如果是写操作并且该vma不是以共享的方式映射该页,则要进行写时复制,也就是创建一个新的页来供该vma读写,此时会申请一个匿名页,并将数据拷贝到该匿名页中。

接下来就要计算出page对应的pte值是多少,并将page_table指向的pte以该值进行填充,这样就完成了页表项到物理页的映射

再来看分配匿名页的处理

static int do_anonymous_page(struct mm_struct *mm, struct vm_area_struct *vma,
		unsigned long address, pte_t *page_table, pmd_t *pmd,
		unsigned int flags)
{
	struct page *page;
	spinlock_t *ptl;
	pte_t entry;

	pte_unmap(page_table);

	/* Check if we need to add a guard page to the stack */
	if (check_stack_guard_page(vma, address) < 0)
		return VM_FAULT_SIGBUS;

	/* Use the zero-page for reads */
	/*如果是读操作,那么就让entry指向一个已有的填充为0的现有页,因为进程是第一次访问该页,
	  所以页中的内容是什么并不重要,这样进一步推迟了新页的分配*/
	if (!(flags & FAULT_FLAG_WRITE)) {
		entry = pte_mkspecial(pfn_pte(my_zero_pfn(address),
						vma->vm_page_prot));
		page_table = pte_offset_map_lock(mm, pmd, address, &ptl);
		if (!pte_none(*page_table))
			goto unlock;
		goto setpte;
	}

	/*如果是写操作,则要分配一个新的页*/
	/* Allocate our own private page. */
	if (unlikely(anon_vma_prepare(vma)))//分配一个anon_vma实例
		goto oom;
	
	/*分配一个被0填充的页*/
	page = alloc_zeroed_user_highpage_movable(vma, address);
	if (!page)
		goto oom;
	__SetPageUptodate(page);

	if (mem_cgroup_newpage_charge(page, mm, GFP_KERNEL))
		goto oom_free_page;

	/*获取页对应的PTE内容*/
	entry = mk_pte(page, vma->vm_page_prot);

	/*如果是写操作则将页的权限设为读写并设置为脏页*/
	if (vma->vm_flags & VM_WRITE)
		entry = pte_mkwrite(pte_mkdirty(entry));

	page_table = pte_offset_map_lock(mm, pmd, address, &ptl);
	if (!pte_none(*page_table))
		goto release;

	inc_mm_counter(mm, anon_rss);
	page_add_new_anon_rmap(page, vma, address);//建立线性区和匿名页的反向映射
setpte:
	set_pte_at(mm, address, page_table, entry);//设置page_table对应的pte

	/* No need to invalidate - it was non-present before */
	update_mmu_cache(vma, address, entry);//更新MMU缓存
unlock:
	pte_unmap_unlock(page_table, ptl);
	return 0;
release:
	mem_cgroup_uncharge_page(page);
	page_cache_release(page);
	goto unlock;
oom_free_page:
	page_cache_release(page);
oom:
	return VM_FAULT_OOM;
}

匿名页分配的工作和__do_fault()中分配匿名页差不多,只不过前面多了一个读写的判断,如果是读的话,不会分配匿名页,而是让pte指向一个被0填充的页,这样就进一步推迟了页的分配。也许你会觉得奇怪,既然要读数据怎么可以分配一个事先准备好的全0的页,其实仔细想想就会明白,缺页异常处理进行到这里,一定是第一次访问相应的内存时才会触发,匿名页对应的一般都是堆,栈这些区域,对这些区域的访问一定先是写而不是读,所以对于这种操作本身就不正常,分配一个被0填充的页使用户进程读出来的都是0也许会更安全一些。

如果不是这两种情况的话,也就是说pte_none()返回的是0,那就说明pte之前映射过页,只是该页已被换出

如果该页之前是用来进行非线性文件映射的话,其处理的主体函数就是上面介绍过的__do_fault()

static int do_nonlinear_fault(struct mm_struct *mm, struct vm_area_struct *vma,
		unsigned long address, pte_t *page_table, pmd_t *pmd,
		unsigned int flags, pte_t orig_pte)
{
	pgoff_t pgoff;

	flags |= FAULT_FLAG_NONLINEAR;


	if (!pte_unmap_same(mm, pmd, page_table, orig_pte))
		return 0;

	if (unlikely(!(vma->vm_flags & VM_NONLINEAR))) {//确保vma具有非线性映射属性
		/*
		 * Page table corrupted: show pte and kill process.
		 */
		print_bad_pte(vma, address, orig_pte, NULL);
		return VM_FAULT_SIGBUS;
	}

	pgoff = pte_to_pgoff(orig_pte);//获取映射的文件偏移
	return __do_fault(mm, vma, address, pmd, pgoff, flags, orig_pte);
}

pte_to_pgoff()这个函数是和pgoff_to_pte()相对的一组操作。在非线性文件映射的页被换出时,其映射文件的偏移会以PAGE_SIZE为单位进行编码,存储到其pte中,所以当要重新换入该页时,要进行相应的解码计算出pgoff,再由__do_fault()进行处理!

对于页没有驻留在主存的情况中的最后一种处理方式,do_swap_page(),留在下次再做分析!


<think>好的,我现在需要帮助用户解决关于do_page_fault中non-IO等待的原因以及调试方法。首先,我需要理解用户的问题背景。用户提到他们想查找do_page_fault的non-IO等待原因,可能系统调用或内存管理相关。这可能涉及到Linux内核的内存管理机制,尤其是缺页异常的处理流程。 首先,我应该回顾一下缺页异常的基本知识。根据引用[1]和[2],匿名页面在首次访问时会触发缺页异常,此时内核分配物理内存并建立映射。如果用户遇到的是non-IO等待,说明缺页处理过程中没有涉及磁盘IO操作,比如不需要从交换空间或文件系统读取数据。这种情况下,可能的问题点包括内存分配延迟、锁竞争、NUMA效应或地址空间操作等。 接下来,我需要分析可能的根本原因。比如,内存分配延迟可能是因为系统内存碎片化严重,或者物理内存不足导致频繁回收。锁竞争可能发生在内存管理相关的锁,如mmap_sem或zone->lock。NUMA架构下,跨节点内存访问可能导致延迟。此外,用户内核态的频繁切换或系统调用本身的问题也可能导致延迟。 然后,调试方法方面,用户需要使用perf、ftrace或动态打印来跟踪函数调用和耗时。检查内存信息如/proc/meminfo和/proc/buddyinfo可以查看碎片情况。锁竞争可以用lockstat或自旋锁分析工具。对于NUMA问题,numastat和numactl命令能帮助查看内存分布情况。 另外,引用[4]中的do_mem_abort函数是处理内存异常的一部分,可能涉及到不同的错误类型,需要查看ESR寄存器内容来确定具体原因。用户可能需要检查异常类型,比如是否是权限错误或地址错误,这些都可能引起non-IO的缺页处理。 还要考虑系统调用或进程上下文的问题,比如系统调用中频繁触发缺页,或者进程的地址空间操作复杂,如大量mmap或munmap操作。此外,透明大页(THP)的合并操作也可能引入延迟。 总结起来,我需要将可能的原因分门别类,并提供相应的调试工具和步骤,帮助用户定位问题。同时,要确保回答结构清晰,步骤详细,用户能够逐步排查问题。</think>### do_page_fault的non-IO等待原因分析调试方法 #### 一、non-IO等待的定义 在Linux缺页异常处理(`do_page_fault`)中,**non-IO等待**指缺页处理未涉及磁盘IO操作(如无需从交换空间或文件系统读取数据),但依然存在延迟的情况。这类问题通常内存管理子系统或系统调用相关[^1][^2]。 --- #### 二、常见原因分析 1. **内存分配延迟** - **内存碎片化**:物理内存碎片导致无法快速分配连续页面,需遍历空闲列表。 - **内存回收压力**:触发直接内存回收(`direct reclaim`)或压缩(`compaction`),通过`/proc/vmstat`的`pgsteal_*`和`compact_*`指标可观察。 - **零页初始化**:匿名映射首次访问需分配零页(zero page),可能因原子操作产生竞争。 2. **锁竞争** - **mmap_sem竞争**:进程频繁操作地址空间(如`mmap`/`munmap`)导致该信号量争用,通过`ftrace`跟踪`contended_mmap_sem`事件。 - **zone->lock竞争**:内存管理区锁争用,常见于高并发内存分配场景。 3. **NUMA效应** - 跨NUMA节点内存分配导致延迟,通过`numastat`观察跨节点访问量。 4. **地址空间操作** - **VMA查找延迟**:进程虚拟内存区域(VMA)结构复杂时,红黑树查找耗时增加。 - **写时复制(COW)**:父子进程共享页面触发COW,需分配新页面并复制内容[^2]。 --- #### 三、调试方法 ##### 步骤1:确认缺页类型 通过`perf`工具分析缺页异常类型: ```bash perf record -e exceptions:page_fault_user -g -p <PID> perf script | grep do_page_fault ``` - **主要类型**: - **MINFLT**(minor fault):无需IO,如堆栈扩展或零页分配。 - **MAJFLT**(major fault):需IO,如交换或文件映射。 ##### 步骤2:分析函数耗时 使用`ftrace`跟踪缺页处理路径: ```bash echo 1 > /sys/kernel/debug/tracing/events/kmem/mm_page_alloc/enable echo 1 > /sys/kernel/debug/tracing/tracing_on cat /sys/kernel/debug/tracing/trace_pipe ``` 关注以下函数耗时: - `__handle_mm_fault` - `handle_pte_fault` - `do_anonymous_page` ##### 步骤3:检查内存状态 查看内存碎片和分配状态: ```bash cat /proc/buddyinfo # 内存碎片情况 cat /proc/pagetypeinfo cat /proc/vmstat | grep -e compact -e steal ``` ##### 步骤4:排查锁竞争 使用`lockstat`分析锁争用: ```bash echo 1 > /proc/sys/kernel/lock_stat # 复现问题后 cat /proc/lock_stat | grep mmap_sem ``` ##### 步骤5:NUMA调优 检查NUMA内存分布: ```bash numastat -m numactl --hardware ``` 若跨节点访问严重,尝试绑定进程到特定节点: ```bash numactl --cpunodebind=0 --membind=0 <command> ``` --- #### 四、典型案例 1. **透明大页(THP)合并延迟** - 现象:`do_page_fault`中频繁调用`khugepaged`。 - 解决:禁用THP或调整`/sys/kernel/mm/transparent_hugepage/defrag`。 2. **用户内核态切换** - 现象:系统调用中频繁触发缺页,通过`strace -c`统计系统调用频率。 --- 相关问题
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值