[内核内存] 伙伴系统4---alloc_pages(内存块分配)

alloc_pages源码流程分析

alloc_pages开始了真正的页面申请,函数作用是:用于申请一块2^order的连续物理内存块

alloc_pages函数实现流程

在这里插入图片描述

代码细节分析

参数准备

//include/linux/gfp.h
/*numa_node_id()返回当前所在节点编号*/
#define alloc_pages(gfp_mask, order) \
		alloc_pages_node(numa_node_id(), gfp_mask, order)
		
static inline struct page *alloc_pages_node(int nid, gfp_t gfp_mask,
						unsigned int order)
{
   
   
	//nid最好是传递过来的参数,若参数无效,则会选择一个目前距离cup最近的一个在线节点
	if (nid == NUMA_NO_NODE)
		nid = numa_mem_id();

	return __alloc_pages_node(nid, gfp_mask, order);
}

static inline struct page *
__alloc_pages_node(int nid, gfp_t gfp_mask, unsigned int order)
{
   
   
	VM_BUG_ON(nid < 0 || nid >= MAX_NUMNODES);
	VM_WARN_ON(!node_online(nid));
	//node_zonelist(nid, gfp_mask)是用于获取node节点的zone管理区列表,按优先级顺序存储
	return __alloc_pages(gfp_mask, order, node_zonelist(nid, gfp_mask));
}

static inline struct page *
__alloc_pages(gfp_t gfp_mask, unsigned int order,
		struct zonelist *zonelist)
{
   
   
	return __alloc_pages_nodemask(gfp_mask, order, zonelist, NULL);
}

核心函数__alloc_pages_nodemask

_alloc_pages_nodemask是伙伴系统的心脏,处理实质的内存分配工作。

  • (1)先进行参数初始化:alloc_mask, alloc_flags和struct alloc_context ac,用于决定内存块的分配配条件。
  • (2) get_page_from_freelist:内核内存环境良好,直接进行快速分配,若成功返回获取free内存块
  • (3)__alloc_pages_slowpath:当前内存环境恶劣时,进入慢分配流程,若成功返回free内存块
  • (4)获取空间内存块后对内存块和系统环境做检查,满足预定要求则返回申请的内存给内核使用
//mm/page_alloc.c
struct page *
__alloc_pages_nodemask(gfp_t gfp_mask, unsigned int order,
			struct zonelist *zonelist, nodemask_t *nodemask)
{
   
   
	struct page *page;
	//分配标志,仅在低水位water mark及以上限制页面分配
	unsigned int alloc_flags = ALLOC_WMARK_LOW;
	gfp_t alloc_mask = gfp_mask; /* The gfp_t that was actually used for allocation */
	//用于存储函数间传递的参数
	struct alloc_context ac = {
   
   
		//gfp对应的zone,参考文档'如何根据gfp_flag找到对应的zone',内存分配的zoneidx一定小于等于该idx
		.high_zoneidx = gfp_zone(gfp_mask),
		//zone优先级搜索列表
		.zonelist = zonelist,
		.nodemask = nodemask,
		//根据gfp找到迁移类型,gfp_flags的bit3-bit4表示migrate类型
		.migratetype = gfpflags_to_migratetype(gfp_mask),
	};

	if (cpusets_enabled()) {
   
   
		alloc_mask |= __GFP_HARDWALL;
		alloc_flags |= ALLOC_CPUSET;
		if (!ac.nodemask)
			ac.nodemask = &cpuset_current_mems_allowed;
	}

	gfp_mask &= gfp_allowed_mask;
    //需要CONFIG_TRACE_IRQFLAGS和CONFIG_PROVE_LOCKING同时定义的时候,才起作用,否则为空函数
	lockdep_trace_alloc(gfp_mask);
    /*如果申请页面传入的gfp_mask掩码携带__GFP_WAIT标识,表示允许页面申请时休眠,
	 *则会进入might_sleep_if()检查是否需要休眠等待以及重新调度
	 */
	might_sleep_if(gfp_mask & __GFP_DIRECT_RECLAIM);
    //由于未设置CONFIG_FAIL_PAGE_ALLOC,则should_fail_alloc_page()恒定返回false
	if (should_fail_alloc_page(gfp_mask, order)
分析路由器客户端对路由器上ftp服务器一次ftp读写的perf报告结果,分析如何处理优化USB读写性能。 91.19% 0.00% proftpd [kernel.kallsyms] [k] el0_svc_compat | ---el0_svc_compat el0_svc_compat_handler | --91.10%--el0_svc_common | |--50.27%--__arm64_sys_read | | | --50.22%--ksys_read | | | --50.06%--vfs_read | | | --49.76%--__vfs_read | | | --49.62%--sock_read_iter | | | --49.50%--inet_recvmsg | | | --49.21%--tcp_recvmsg | | | |--22.17%--tcp_cleanup_rbuf | | | | | --22.08%--tcp_send_ack | | | | | --22.02%--__tcp_send_ack.part.0 | | | | | |--20.97%--__tcp_transmit_skb | | | | | | | --20.26%--ip_queue_xmit | | | | | | | --20.15%--__ip_queue_xmit | | | | | | | |--14.61%--ip_output | | | | | | | | | |--13.77%--ip_finish_output | | | | | | | | | | | --13.54%--ip_finish_output2 | | | | | | | | | | | --13.10%--dev_queue_xmit | | | | | | | | | | | --13.04%--__dev_queue_xmit | | | | | | | | | | | --12.42%--dev_hard_start_xmit | | | | | | | | | | | --12.05%--br_dev_xmit | | | | | | | | | | | --10.85%--br_forward | | | | | | | | | | | --10.24%--__br_forward | | | | | | | | | | | |--8.91%--br_forward_finish | | | | | | | | | | | | | |--6.53%--br_dev_queue_push_xmit | | | | | | | | | | | | | | | --6.46%--dev_queue_xmit | | | | | | | | | | | | | | | --6.42%--__dev_queue_xmit | | | | | | | | | | | | | | | --5.87%--dev_hard_start_xmit | | | | | | | | | | | | | | | --5.76%--bcmVlan_devHardStartXmit | | | | | | | | | | | | | | | |--4.22%--dev_queue_xmit | | | | | | | | | | | | | | | | | --4.16%--__dev_queue_xmit | | | | | | | | | | | | | | | | | --3.61%--__qdisc_run | | | | | | | | | | | | | | | | --3.13%--sch_direct_xmit | | | | | | | | | | | | | | | | --2.80%--dev_hard_start_xmit | | | | | | | | | | | | | | | | --2.50%--enet_xmit | | | | | | | | | | | | | | | | --1.59%--dispatch_pkt_sf2_lan | | | | | | | | | | | | | | | | --1.32%--cpu_queues_tx_send | | | | | | | | | | | | | | | | --1.25%--archer_dma_cpu_tx_queue_notifier | | | | | | | | | | | | | | | | --1.13%--archer_task_schedule | | | | | | | | | | | | | | | | --1.10%--archer_thread_wakeup | | | | | | | | | | | | | | | | --1.09%--__wake_up | | | | | | | | | | | | | | | | --1.02%--_raw_spin_unlock_irqrestore | | | | | | | | | | | | | | | --0.97%--bcmVlan_processFrame | | | | | | | | | | | | | --2.19%--nf_hook_slow | | | | | | | | | | | | | --1.93%--br_hook | | | | | | | | | | | | | --1.46%--sprintf | | | | | | | | | | | | | --1.39%--vsnprintf | | | | | | | | | | | --1.09%--nf_hook_slow | | | | | | | | | --0.53%--nf_hook_slow | | | | | | | --4.97%--__ip_local_out | | | | | | | --4.74%--nf_hook_slow | | | | | | | |--2.41%--ipv4_conntrack_local | | | | | | | | | --2.14%--nf_conntrack_in | | | | | | | | | --0.80%--tcp_packet | | | | | | | |--0.69%--iptable_filter_hook | | | | | | | | | --0.64%--ipt_do_table | | | | | | | |--0.59%--iptable_raw_hook | | | | | | | | | --0.57%--ipt_do_table | | | | | | | --0.54%--iptable_mangle_hook | | | | | --0.56%--__alloc_skb | | | |--16.16%--skb_copy_datagram_iter | | | | | |--12.56%--_copy_to_iter | | | | | | | --12.20%--__arch_copy_to_user | | | | | --3.05%--__check_object_size | | | |--5.14%--__kfree_skb | | | | | |--2.72%--skb_release_data | | | | | | | --2.44%--bcm_skb_free_head | | | | | | | --2.33%--enet_recycle_handler | | | | | | | --2.02%--_raw_spin_unlock_irqrestore | | | | | |--1.05%--kfree_skbmem.part.0 | | | | | | | --0.96%--kmem_cache_free | | | | | --0.90%--skb_release_head_state | | | |--3.64%--release_sock | | | | | --3.45%--__release_sock | | | | | --3.18%--tcp_v4_do_rcv | | | | | --2.88%--tcp_rcv_established | | | | | |--0.60%--tcp_queue_rcv | | | | | --0.53%--__tcp_ack_snd_check | | | --0.66%--tcp_rcv_space_adjust | |--27.87%--__arm64_sys_write | | | --27.84%--ksys_write | | | --27.59%--vfs_write | | | --27.19%--__vfs_write | | | --26.98%--generic_file_write_iter | | | --26.63%--__generic_file_write_iter | | | |--25.00%--generic_perform_write | | | | | |--16.76%--exfat_write_begin | | | | | | | --16.49%--tp_cont_write_begin | | | | | | | --16.15%--tp_block_write_begin | | | | | | | |--8.53%--__tp_block_write_begin_int.constprop.0 | | | | | | | | | |--5.06%--tp_exfat_get_block | | | | | | | | | | | --4.47%--exfat_map_cluster | | | | | | | | | | | |--1.84%--exfat_get_cluster | | | | | | | | | | | | | --0.84%--exfat_ent_get | | | | | | | | | | | --1.32%--exfat_alloc_cluster | | | | | | | | | | | --0.57%--exfat_ent_set | | | | | | | | | |--1.57%--create_empty_buffers | | | | | | | | | | | --1.15%--alloc_page_buffers | | | | | | | | | | | --1.05%--alloc_buffer_head | | | | | | | | | | | --0.59%--kmem_cache_alloc | | | | | | | | | --0.97%--clean_bdev_aliases | | | | | | | | | --0.77%--pagevec_lookup_range | | | | | | | | | --0.52%--radix_tree_next_chunk | | | | | | | |--6.83%--grab_cache_page_write_begin | | | | | | | | | --6.54%--pagecache_get_page | | | | | | | | | |--2.88%--add_to_page_cache_lru | | | | | | | | | | | |--1.37%--_raw_spin_unlock_irq | | | | | | | | | | | --1.15%--lru_cache_add | | | | | | | | | | | --0.77%--_raw_spin_unlock_irqrestore | | | | | | | | | |--2.43%--__alloc_pages_nodemask | | | | | | | | | | | --1.90%--get_page_from_freelist | | | | | | | | | --0.69%--find_get_entry | | | | | | | --0.53%--memset | | | | | |--3.96%--iov_iter_copy_from_user_atomic | | | | | | | --3.63%--__arch_copy_from_user | | | | | --3.15%--exfat_write_end | | | | | --3.02%--generic_write_end | | | | | --2.46%--block_write_end | | | | | --2.12%--__block_commit_write.constprop.0.isra.0 | | | | | --1.68%--mark_buffer_dirty | | | | | --1.48%--_raw_spin_unlock_irqrestore | | | --0.94%--iov_iter_fault_in_readable | |--4.84%--__arm64_compat_sys_select | | | --4.50%--do_compat_select | | | --3.24%--compat_core_sys_select | | | --2.25%--do_select | | | --0.81%--sock_poll | | | --0.61%--tcp_poll | |--3.85%--__arm64_compat_sys_setitimer | | | --2.53%--_raw_spin_unlock_irq | |--0.74%--__arm64_compat_sys_aarch32_pwrite64 | | | --0.73%--ksys_pwrite64 | vfs_write | | | --0.62%--__vfs_write | | | --0.58%--generic_file_write_iter | | | --0.51%--__generic_file_write_iter | --0.66%--__arm64_compat_sys_clock_gettime
最新发布
10-11
<think>我们首先分析perf报告。从报告中可以看出,主要的时间消耗在读取(read)和写入(write)操作上,其中读取操作占用了大部分时间(50.27%在__arm64_sys_read中,而写入操作占27.87%在__arm64_sys_write中)。 具体到读取操作(read): - 主要的调用路径是:`tcp_recvmsg` (49.21%),其中又分为: - `tcp_cleanup_rbuf` (22.17%) -> 主要是发送ACK(`tcp_send_ack`)和传输数据包(`__tcp_transmit_skb`),然后通过网络栈(IP层、设备层等)发送。 - `skb_copy_datagram_iter` (16.16%) -> 主要是在用户空间和内核空间之间复制数据(`_copy_to_iter`和`__arch_copy_to_user`)。 - `__kfree_skb` (5.14%) -> 释放SKB内存,其中涉及到一些内存释放操作(如`bcm_skb_free_head`、`enet_recycle_handler`等)。 写入操作(write): - 主要调用路径是:`__generic_file_write_iter` (26.63%),其中: - `generic_perform_write` (25.00%):这里面主要涉及文件系统的写操作,使用的是exfat文件系统(因为看到`exfat_write_begin`等函数)。 - `exfat_write_begin` (16.76%):写开始操作,其中主要时间在`tp_block_write_begin`(16.15%),这个函数内部又调用了文件系统相关的函数(如`exfat_map_cluster`、`exfat_alloc_cluster`等)以及页缓存操作(如`grab_cache_page_write_begin`、`__alloc_pages_nodemask`等)。 - 此外,还有`exfat_write_end`(3.15%)等。 从上述分析,我们可以看出性能瓶颈可能出现在: 1. 网络栈处理(特别是TCP的ACK发送和数据包传输)消耗了大量时间(约22%在read路径中)。 2. 数据从内核空间复制到用户空间(16%左右)也是read路径中的一个瓶颈。 3. 文件系统的写操作(主要是exfat文件系统)消耗了大量时间(约25%在write路径中),特别是文件系统元数据操作(如分配簇、映射簇等)。 针对USB读写性能优化,我们可以考虑以下方向: 1. **网络栈优化**: - 调整TCP参数,例如减少ACK发送的频率(如启用TCP_DELAY_ACK)或者调整接收窗口大小,以减少ACK的数量。 - 检查是否可以使用更大的MTU(最大传输单元),以减少数据包的数量。 - 考虑使用网络加速技术(如TSO、GSO等)来减轻CPU负担。 2. **减少数据复制**: - 使用零拷贝技术,例如使用`splice`或`sendfile`系统调用,避免数据在用户空间和内核空间之间的复制。但注意,这需要应用程序的支持。 3. **文件系统优化**: - 由于使用exfat文件系统,并且写操作中元数据操作(如簇的分配和映射)占比较高,可以考虑以下措施: - 确保文件系统块大小与USB存储设备的块大小对齐,减少碎片。 - 如果可能,使用更高效的文件系统(如ext4)或者优化exfat驱动(例如,使用异步I/O)。 - 增加文件系统的预读(readahead)设置,减少小文件读写次数。 - 使用更高效的块设备驱动或者优化USB驱动。 4. **内存管理优化**: - 在释放SKB内存(`__kfree_skb`)时,我们看到有内存释放操作(如`kmem_cache_free`)消耗了一定时间。可以考虑使用内存池(例如,预先分配好SKB)来减少内存分配/释放的开销。 5. **硬件相关优化**: - 检查USB控制器驱动是否是最新版本,或者是否有优化版本。 - 确认USB存储设备本身的速度(如USB2.0/3.0),确保使用高速接口。 6. **应用程序优化**: - 调整FTP服务器的配置,例如增加缓冲区大小,减少读写次数。 - 考虑使用异步I/O或多线程处理,以避免阻塞。 由于perf报告中显示写操作中exfat文件系统的操作占了很大比例,我们应重点优化文件系统。同时,网络栈的优化也不容忽视。 具体步骤建议: 1. 调整TCP参数,例如设置`net.ipv4.tcp_delack_min`和`net.ipv4.tcp_no_metrics_save`等。 2. 检查exfat文件系统的挂载参数,例如使用`noatime`、`nodiratime`等减少元数据更新。 3. 考虑使用更快的存储介质(如果USB设备本身较慢)或者更换USB端口(确保使用USB3.0及以上)。 4. 如果可能,在内核中启用exfat的日志以减少元数据操作的开销(但目前exfat默认不支持日志)。 5. 测试使用不同的文件系统(如ext4、f2fs等)对比性能。 注意:优化前应备份数据,并逐步测试每个优化步骤的效果。 §§相关问题§§ 1. 如何调整TCP参数以减少ACK发送频率? 2. 在exFAT文件系统中,有哪些挂载选项可以优化读写性能? 3. 如何在内核中实现零拷贝以提高文件传输效率? 4. 如何检测USB设备的实际传输速度以及是否被正确识别为高速设备? 5. 对于FTP服务器软件(如proftpd),有哪些配置选项可以优化大文件传输? </think>### Perf报告分析与USB读写性能优化建议 根据提供的perf报告,分析结果如下: 1. **主要性能瓶颈分布**: - **读操作(50.27%)**:主要在TCP协议栈处理(`tcp_recvmsg`占49.21%) - **写操作(27.87%)**:集中在exFAT文件系统操作(`exfat_write_begin`占16.76%) - **网络ACK处理(22.17%)**:`tcp_send_ack`及协议栈开销显著 - **内存复制开销(16.16%)**:`skb_copy_datagram_iter`数据复制消耗大 2. **关键性能问题**: - **ACK风暴问题**:`tcp_send_ack`调用链占整体22.02%,频繁ACK响应拖慢传输 - **文件系统元数据瓶颈**:exFAT的簇管理(`exfat_map_cluster`/`exfat_alloc_cluster`)占写操作5.38% - **内存操作延迟**:SKB缓冲区释放(`__kfree_skb`)占5.14%,包含多次锁操作 - **页缓存竞争**:`grab_cache_page_write_begin`文件页锁争用占6.83% 3. **USB读写优化方案**: - **TCP协议栈优化**: - 启用TCP延迟ACK:`sysctl -w net.ipv4.tcp_delack_min=40`(减少ACK频率) - 增大TCP接收窗口:`sysctl -w net.core.rmem_max=16777216` - **文件系统调优**: - 使用exFAT挂载优化:`mount -o noatime,nodiratime,errors=remount-ro` -分配大文件:`fallocate -l 1G file.bin`减少实时簇分配 - **零拷贝改进**: - 启用`sendfile`系统调用替代read/write - 配置FTP服务器使用`AllowRetrieveRestart`/`AllowStoreRestart` - **内存管理优化**: - 调整SKB内存池:`sysctl -w net.core.high_order_alloc_disable=1` - 启用页面回收:`vm.vfs_cache_pressure=150` - **驱动层优化**: - 更新USB控制器驱动(如xhci-hcd) - 启用USB3.0 UASP模式(若硬件支持) 4. **验证方法**: ```bash # 确认优化效果 iperf3 -c <server> # 网络吞吐测试 sysbench fileio --file-test-mode=rndwr run # 存储性能测试 ftperf -s <server> -f 1GB.dat # FTP传输基准 ```
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值