build_all_zonelists函数解析

本文探讨了在内存管理系统中zonelist的作用,它如何统一管理uma和numa系统的内存节点信息。同时,文章介绍了pageset的概念,每个CPU的boot_pageset如何初始化,用于维护每个CPU的page集合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基础知识点


为什么需要zonelist?

之前bootmem_init初始化的时候,已经初始化了内存节点的zone成员,该成员是一个struct zone数组,存放该内存节点的zone信息。

对于uma系统来说,这已经够了,因为uma系统只有一个本地内存节点,所有zone的信息都存放在本地内存节点的zone成员中。

对于numa系统来说,除了本地内存节点,还可以存在一个或多个远端内存节点,本地内存节点的zone成员并不会存放远端内存节点的zone信息。所以,这里引入zonelist的概念,本地内存节点和远端内存节点的zone统一挂在zonelist链表上。

什么是pageset?

每一个cpu会维护一个boot_pageset成员,这是一个struct per_cpu_pageset结构体,用于描述每个cpu维护的page集合。该函数中只会对pageset做一些最简单的初始化。

代码分析


build_all_zonelists
   |----->set_zonelist_order();
   |   |----->current_zonelist_order = ZONELIST_ORDER_ZONE;
   |   |      对于uma系统来说,仅存在一个内存节点,所以按zone来排序;对于numa系统来说,可以按node来排序,也可以按zone来排序
   |----->build_all_zonelists_init();
   |   |----->__build_all_zonelists(NULL);
   |   |   |----->pg_data_t *pgdat = NODE_DATA(nid);
   |   |   |----->build_zonelists(pgdat);
   |   |   |   |----->zonelist = &pgdat->node_zonelist
<think>我们讨论的是Linux内核启动过程中,`early_kmem_cache_node_alloc`和`percpu`内存分配区域的初始化先后关系。这两个都是内核初始化内存管理子系统的重要步骤。 在Linux内核启动过程中,内存管理子系统的初始化顺序非常关键。`early_kmem_cache_node_alloc`用于为SLUB分配器(内核的内存分配器之一)的`kmem_cache_node`结构分配内存,而`percpu`区域则是为每个CPU分配私有内存区域。 根据Linux内核的启动流程(以5.x版本为例),内存管理初始化的主要步骤在`start_kernel`函数中,调用顺序如下: 1. `setup_arch`:体系结构相关的初始化,其中会初始化早期内存分配机制(如bootmem或者memblock)。 2. `setup_per_cpu_areas`:初始化每个CPU的私有数据区域(即percpu区域)。 3. `build_all_zonelists`:构建内存管理区的列表。 4. `page_alloc_init`:初始化页分配器。 5. `mm_init`:内存管理初始化,其中会调用`kmem_cache_init`来初始化SLAB/SLUB分配器。 在`kmem_cache_init`函数中,会进行SLUB分配器的自举(bootstrap)过程。在这个过程中,会调用`early_kmem_cache_node_alloc`来为每个节点(NUMA节点)分配`kmem_cache_node`结构。 因此,从时间顺序上看: - `setup_per_cpu_areas`(初始化percpu区域)发生在`start_kernel`函数的相对早期。 - `early_kmem_cache_node_alloc`是在`kmem_cache_init`函数中调用的,而`kmem_cache_init`是在`mm_init`中调用的,所以它发生在`setup_per_cpu_areas`之后。 但是,这里有一个关键点:在`setup_per_cpu_areas`之前,内核使用的是静态的percpu区域(在编译时分配,大小固定)。而`setup_per_cpu_areas`会为每个CPU分配动态的percpu区域(可以更大,更灵活)。在`setup_per_cpu_areas`之后,内核就可以使用动态的percpu分配了。 然而,`early_kmem_cache_node_alloc`函数在分配内存时,使用的是早期分配器(memblock),而不是通过SLUB分配器(因为此时SLUB分配器还没有完全初始化)。因此,它并不依赖于percpu区域。 总结:`setup_per_cpu_areas`(percpu区域的初始化)发生在`early_kmem_cache_node_alloc`之前。 下面我们通过代码片段来验证: 在`start_kernel`函数(init/main.c)中的调用顺序: ```c asmlinkage __visible void __init __no_sanitize_address start_kernel(void) { ... setup_arch(&command_line); // 体系结构初始化,包括早期内存分配器 ... setup_per_cpu_areas(); // 初始化percpu区域 ... build_all_zonelists(NULL); // 构建内存管理区的列表 page_alloc_init(); ... mm_init(); // 内存管理初始化,其中调用kmem_cache_init() ... } ``` 在`mm_init`函数中(init/main.c): ```c static void __init mm_init(void) { ... kmem_cache_init(); ... } ``` 在`kmem_cache_init`函数(mm/slub.c)中,会调用`bootstrap`函数,在`bootstrap`函数中会为`kmem_cache_node`缓存创建初始的slab,即调用`early_kmem_cache_node_alloc`。 因此,顺序是: setup_per_cpu_areas() -> mm_init() -> kmem_cache_init() -> bootstrap() -> early_kmem_cache_node_alloc() 所以,percpu区域的初始化在`early_kmem_cache_node_alloc`之前。 但是,这里有一个特殊情况:在`setup_per_cpu_areas`函数中,它自己也需要分配内存,那么它是如何分配内存的呢?在`setup_per_cpu_areas`函数中,使用的是早期内存分配器(memblock),而不是SLUB分配器。因此,它不依赖于SLUB分配器的初始化,所以可以安全地在`kmem_cache_init`之前调用。 结论:`setup_per_cpu_areas`(percpu区域的初始化)发生在`early_kmem_cache_node_alloc`之前,且两者都使用早期内存分配器(memblock)进行内存分配。 下面我们看一下`setup_per_cpu_areas`函数(在mm/percpu.c中)的简化代码: ```c void __init setup_per_cpu_areas(void) { unsigned long delta; unsigned int cpu; int rc; /* 为每个CPU分配内存 */ rc = pcpu_embed_first_chunk(PERCPU_MODULE_RESERVE, PERCPU_DYNAMIC_RESERVE, PAGE_SIZE, NULL, pcpu_dfl_fc_alloc, pcpu_dfl_fc_free); if (rc < 0) panic("Failed to initialize percpu areas."); /* 将静态的percpu数据复制到每个CPU的区域中 */ delta = (unsigned long)pcpu_base_addr - (unsigned long)__per_cpu_start; for_each_possible_cpu(cpu) { per_cpu_offset(cpu) = delta + pcpu_unit_offsets[cpu]; per_cpu(this_cpu_off, cpu) = per_cpu_offset(cpu); memcpy((void *)per_cpu_offset(cpu), __per_cpu_load, __per_cpu_end - __per_cpu_start); } } ``` 而`early_kmem_cache_node_alloc`函数(mm/slub.c)中,使用`new_slab`分配内存,而`new_slab`在早期初始化阶段会调用`memblock`分配器: ```c static struct page *new_slab(struct kmem_cache *s, gfp_t flags, int node) { ... page = allocate_slab(s, flags & (GFP_RECLAIM_MASK | GFP_CONSTRAINT_MASK), node); ... } static struct page *allocate_slab(struct kmem_cache *s, gfp_t flags, int node) { ... if (node == NUMA_NO_NODE) page = alloc_slab_page(s, alloc_gfp, node, &page_order); else page = alloc_slab_page(s, gfp, node, &page_order); ... } static inline struct page *alloc_slab_page(gfp_t flags, int node, int order) { struct page *page; unsigned int nr_pages = 1 << order; if (node == NUMA_NO_NODE) page = alloc_pages(flags, order); else page = __alloc_pages_node(node, flags, order); ... } ``` 在初始化早期,`alloc_pages`会调用`memblock`分配器(在伙伴系统尚未初始化时),所以`early_kmem_cache_node_alloc`也是使用早期分配器。 因此,两者都使用早期分配器,但percpu的初始化先于`early_kmem_cache_node_alloc`。 相关问题:</think>### `early_kmem_cache_node_alloc` 与 `percpu` 内存分配的先后关系分析 在 Linux 内核启动过程中,`early_kmem_cache_node_alloc` 和 `percpu`(每 CPU 变量)内存区域的初始化存在严格的先后顺序。以下是关键顺序分析: #### 1. **内核启动关键路径** ```plaintext start_kernel() ├── setup_arch() // 体系结构初始化 ├── setup_per_cpu_areas() // percpu 区域初始化 ★ 关键点 ├── mm_init() // 内存管理初始化 │ └── kmem_cache_init() // SLUB 分配器初始化 │ └── bootstrap() // 自举过程 │ └── early_kmem_cache_node_alloc() // 节点结构分配 └── rest_init() // 剩余初始化 ``` #### 2. **核心顺序:`setup_per_cpu_areas()` 优先** `percpu` 区域的初始化 **必须** 在 `early_kmem_cache_node_alloc` 之前完成,原因如下: 1. **依赖关系**: - `early_kmem_cache_node_alloc` 需要访问 `this_cpu_ptr()` 等 percpu 变量 - SLUB 分配器本身依赖 percpu 变量跟踪缓存状态 2. **内存分配器依赖**: - `setup_per_cpu_areas` 使用早期内存分配器(memblock) - `early_kmem_cache_node_alloc` 是 SLUB 初始化的一部分,而 SLUB 依赖 percpu 区域 #### 3. 代码验证:内核源码分析 **`setup_per_cpu_areas()` 实现 (mm/percpu.c)**: ```c void __init setup_per_cpu_areas(void) { unsigned long delta; unsigned int cpu; int rc; // 1. 分配percpu内存区域 rc = pcpu_embed_first_chunk(PERCPU_MODULE_RESERVE, PERCPU_DYNAMIC_RESERVE, PAGE_SIZE, NULL, pcpu_dfl_fc_alloc, pcpu_dfl_fc_free); if (rc < 0) panic("Failed to initialize percpu areas."); // 2. 设置每CPU偏移量 delta = (unsigned long)pcpu_base_addr - (unsigned long)__per_cpu_start; for_each_possible_cpu(cpu) { per_cpu_offset(cpu) = delta + pcpu_unit_offsets[cpu]; per_cpu(this_cpu_off, cpu) = per_cpu_offset(cpu); } } ``` **`kmem_cache_init()` 调用路径 (mm/slub.c)**: ```c void __init kmem_cache_init(void) { // 先确保percpu区域已初始化 BUILD_BUG_ON(!this_cpu_ptr(&s->cpu_slab)); // 然后开始SLUB自举 bootstrap(&boot_kmem_cache); bootstrap(&boot_kmem_cache_node); // 最后初始化节点结构 for_each_node(node) { init_kmem_cache_nodes(&boot_kmem_cache_node); early_kmem_cache_node_alloc(node); // ★ 此时percpu已就绪 } } ``` #### 4. 关键依赖解析 ##### `early_kmem_cache_node_alloc` 对 percpu 的依赖 ```c static void early_kmem_cache_node_alloc(int node) { // 使用this_cpu_ptr需要percpu区域已初始化 struct kmem_cache_cpu *c = this_cpu_ptr(kmem_cache_node->cpu_slab); // 访问percpu变量 if (c->page) flush_slab(s, c); } ``` ##### SLUB 的 percpu 缓存结构 ```c struct kmem_cache_cpu { void **freelist; // 空闲对象指针 struct page *page; // 当前操作的slab页 unsigned long tid; // 全局事务ID unsigned int stat[NR_SLUB_STAT_ITEMS]; }; ``` #### 5. 初始化失败的后果 如果顺序颠倒(先尝试节点分配后初始化 percpu): ```c // 错误场景模拟 void wrong_order(void) { // 在percpu区域未初始化时调用 early_kmem_cache_node_alloc(0); // 此时访问percpu变量会导致崩溃 struct kmem_cache_cpu *c = this_cpu_ptr(kmem_cache_node->cpu_slab); // 崩溃点:c->page 访问无效地址 } ``` **崩溃信息示例**: ```plaintext Unable to handle kernel paging request at virtual address deadbeef pc : early_kmem_cache_node_alloc+0x42/0x108 lr : kmem_cache_init+0x1a4/0x2d0 [<ffffffc0100342bc>] early_kmem_cache_node_alloc+0x42/0x108 ``` #### 6. 调试技巧:验证初始化顺序 在内核中添加调试标记: ```c // 在setup_per_cpu_areas后设置标志 static bool percpu_initialized __initdata = false; void __init setup_per_cpu_areas(void) { // ...初始化代码... percpu_initialized = true; } void __init early_kmem_cache_node_alloc(int node) { if (!percpu_initialized) panic("percpu not initialized before node alloc!"); // ...正常逻辑... } ``` ### 总结:严格的先后顺序 1. **`setup_per_cpu_areas()` 必须在 `early_kmem_cache_node_alloc()` 之前完成** 2. **原因**: - percpu 区域为 SLUB 提供每 CPU 缓存结构 - 节点分配需要访问 percpu 变量 - 早期内存分配器依赖体系结构初始化的结果 3. **典型顺序**: ```plaintext 体系结构初始化 → percpu区域初始化 → SLUB自举 → 节点分配 ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值