linux内核对于NUMA的管理

原创已于 2025-07-09 10:12:16 修改 · 1k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#linux #spring #运维

于 2025-07-09 10:03:06 首次发布

在Linux内核中，NUMA（Non-Uniform Memory Access）调度算法的核心目标是减少跨节点内存访问，提高本地内存命中率。以下是Linux内核处理NUMA调度的关键机制和算法：

一、基本调度原则

Linux内核的NUMA调度遵循以下核心原则：

内存优先：优先将进程调度到其内存所在的NUMA节点（即“内存跟随CPU”）。
负载均衡：在本地内存可用的前提下，尽量平衡各节点的CPU负载。
迁移代价：避免频繁迁移进程，因为迁移会导致CPU缓存失效和内存访问模式变化。

二、关键调度算法与机制

1. 进程内存分配策略

Linux内核提供多种内存分配策略，通过/proc/sys/vm/下的参数控制：

默认策略（vm.zone_reclaim_mode=0）：优先从本地节点分配内存，不足时从其他节点分配（允许跨节点）。
严格本地策略（vm.zone_reclaim_mode=1）：仅从本地节点分配，不足时触发页面回收（可能导致性能下降）。
内存交错（Interleave）：通过numactl --interleave=all命令，将内存均匀分布在多个节点。

2. 进程迁移与负载均衡

NUMA平衡守护进程（numa_balancing）：
- 定期检查进程是否在“错误”的节点上运行（即访问大量远程内存）。
- 若检测到远程访问比例过高，将进程迁移到其主要内存所在的节点。
- 可通过echo 0 > /sys/kernel/numa_balancing禁用（适用于对迁移敏感的应用）。
负载均衡触发条件：
- 当CPU负载差异超过阈值（sched_migration_cost）时触发。
- 优先迁移那些内存访问本地化程度高的进程（减少远程内存访问）。

3. 内存访问跟踪

内核通过**页表项（PTE）的访问位（Accessed Bit）**跟踪内存访问：

当进程访问某个内存页时，对应PTE的访问位被置位。
内核定期扫描这些访问位，统计各节点内存的访问频率。
根据统计结果，决定是否迁移进程或调整内存分配。

4. 进程唤醒策略

当进程从睡眠状态唤醒时，调度器会：

优先选择进程上次运行的CPU（缓存亲和性）。
若上次CPU所在节点内存不足，选择其他节点中负载最轻且内存充足的CPU。

5. 内存预取（Memory Prefetch）

内核会预测进程的内存访问模式，并提前将数据从远程节点迁移到本地节点：

主动页面迁移（Active Page Migration）：将频繁访问的远程页面迁移到本地节点。
内存热点检测：通过跟踪页面访问频率，识别“热点”内存区域。

三、关键内核参数与调优

以下是与NUMA调度相关的重要内核参数（可通过sysctl或直接修改/proc/sys/）：

1. 内存分配与回收

# 控制内存回收时是否优先从本地节点回收（0=允许跨节点，1=仅本地）
vm.zone_reclaim_mode=0

# 内存分配时的公平性（0=优先本地，1=更公平地跨节点分配）
vm.numa_zonelist_order=0

2. 进程迁移与负载均衡

# 禁用NUMA自动平衡（减少不必要的进程迁移）
echo 0 > /sys/kernel/numa_balancing

# 设置CPU负载均衡的频率（单位：毫秒）
sched_freq=1000

# 进程迁移的代价阈值（值越高，越不容易迁移）
sched_migration_cost=500000

3. 内存预取与迁移

# 启用主动页面迁移（将远程页面迁移到本地节点）
echo 1 > /sys/kernel/mm/ksm/run

# 设置页面迁移的速度限制（0=无限制）
echo 1000 > /sys/kernel/mm/ksm/pages_to_scan

四、调度器类型与NUMA支持

Linux内核的不同调度器对NUMA的支持略有差异：

1. CFS（Completely Fair Scheduler）

现代Linux默认调度器，对NUMA友好。
通过task_struct中的numa_state字段跟踪进程的NUMA亲和性。

2. RT（Real-Time Scheduler）

实时调度器，对延迟敏感。
需手动通过numactl或sched_setaffinity()设置NUMA亲和性。

3. BFS（Brain Fuck Scheduler）

实验性调度器，强调公平性和响应性。
对NUMA的优化较弱，不推荐用于NUMA系统。

五、调优建议

内存密集型应用：
- 使用numactl --localalloc强制本地内存分配；
- 禁用numa_balancing减少进程迁移。
多线程应用：
- 使用numactl --cpunodebind=N --membind=N将线程和内存绑定到同一节点；
- 考虑使用--interleave=all均衡内存分布。
数据库与缓存系统：
- 启用innodb_buffer_pool_numa_interleave（MySQL）；
- 使用numactl --interleave=all运行Redis/Memcached。
监控工具：
- 使用numastat监控远程内存访问比例；
- 使用perf mem分析内存访问模式。

QEMU作为一款功能强大的虚拟化和模拟工具，提供了对NUMA（Non-Uniform Memory Access）架构的模拟支持。这使得开发者和测试人员可以在虚拟化环境中研究、测试和优化NUMA相关的应用和系统行为。以下是QEMU模拟NUMA的核心功能、配置方法及相关工具：

六、QEMU模拟NUMA的基本原理

QEMU通过以下方式模拟NUMA架构：

节点划分：将虚拟机的CPU和内存划分为多个逻辑节点（Node），每个节点有独立的CPU核心和内存区域。
访问延迟模拟：通过配置节点间的“距离”参数，模拟不同节点间内存访问延迟的差异。
拓扑暴露：向虚拟机操作系统暴露NUMA拓扑信息，使其感知到模拟的NUMA架构。

七、QEMU模拟NUMA的核心参数

在启动QEMU时，可通过以下参数配置NUMA拓扑：

1. -smp：配置CPU总数和分布

-smp sockets=2,cores=4,threads=1  # 2个socket（每个socket 4核）

2. -numa：定义NUMA节点

-numa node,nodeid=0,cpus=0-3,mem=2048  # 节点0：CPU 0-3，2GB内存
-numa node,nodeid=1,cpus=4-7,mem=2048  # 节点1：CPU 4-7，2GB内存

3. -object memory-backend-ram：配置内存后端

-object memory-backend-ram,id=mem0,size=2G
-object memory-backend-ram,id=mem1,size=2G
-numa node,nodeid=0,memdev=mem0,cpus=0-3
-numa node,nodeid=1,memdev=mem1,cpus=4-7

4. -numa distance：设置节点间距离（影响访问延迟）

-numa distance,src=0,dst=0,val=10  # 节点0访问自身延迟
-numa distance,src=0,dst=1,val=20  # 节点0访问节点1延迟
-numa distance,src=1,dst=0,val=20  # 节点1访问节点0延迟
-numa distance,src=1,dst=1,val=10  # 节点1访问自身延迟

八、完整QEMU命令示例

以下是一个模拟2节点NUMA架构的QEMU命令：

qemu-system-x86_64 \
  -smp sockets=2,cores=4,threads=1 \
  -m 4G \
  -object memory-backend-ram,id=mem0,size=2G \
  -object memory-backend-ram,id=mem1,size=2G \
  -numa node,nodeid=0,memdev=mem0,cpus=0-3 \
  -numa node,nodeid=1,memdev=mem1,cpus=4-7 \
  -numa distance,src=0,dst=0,val=10 \
  -numa distance,src=0,dst=1,val=20 \
  -numa distance,src=1,dst=0,val=20 \
  -numa distance,src=1,dst=1,val=10 \
  -hda ubuntu.img \
  -net user,hostfwd=tcp::2222-:22 \
  -net nic

九、在虚拟机中验证NUMA配置

启动虚拟机后，可通过以下命令验证NUMA配置：

1. lscpu

lscpu | grep -i numa
# 示例输出：
# NUMA node(s):          2
# NUMA node0 CPU(s):     0-3
# NUMA node1 CPU(s):     4-7

2. numactl --hardware

numactl --hardware
# 示例输出：
# available: 2 nodes (0-1)
# node 0 cpus: 0 1 2 3
# node 0 size: 2048 MB
# node 1 cpus: 4 5 6 7
# node 1 size: 2048 MB
# node distances:
# node   0   1 
#   0:  10  20 
#   1:  20  10

3. 查看/sys/devices/system/node

ls /sys/devices/system/node/
# 应显示 node0 和 node1 目录

十、高级配置：非对称NUMA拓扑

QEMU还支持模拟非对称NUMA拓扑（如不同节点内存大小不同）：

qemu-system-x86_64 \
  -smp sockets=2,cores=4,threads=1 \
  -m 6G \
  -object memory-backend-ram,id=mem0,size=4G \
  -object memory-backend-ram,id=mem1,size=2G \
  -numa node,nodeid=0,memdev=mem0,cpus=0-3 \
  -numa node,nodeid=1,memdev=mem1,cpus=4-7 \
  ...

十一、限制与注意事项

模拟与真实硬件差异：
- QEMU模拟的NUMA延迟差异是逻辑上的，而非真实硬件的物理延迟。
- 实际性能影响可能与真实硬件不同。
操作系统支持：
- 虚拟机内的操作系统必须支持NUMA（如Linux 2.6.16+、Windows Server 2008+）。
性能开销：
- 模拟NUMA会引入额外的虚拟化开销，尤其是在节点间通信频繁时。
版本兼容性：
- 不同QEMU版本对NUMA的支持可能略有差异，建议使用最新稳定版。

十二、结合libvirt管理NUMA虚拟机

在生产环境中，通常使用libvirt管理QEMU虚拟机。以下是一个libvirt XML配置片段，定义了一个2节点NUMA虚拟机：

<domain type='kvm'>
  ...
  <cpu mode='host-passthrough'>
    <numa>
      <cell id='0' cpus='0-3' memory='2048' unit='MiB'/>
      <cell id='1' cpus='4-7' memory='2048' unit='MiB'/>
    </numa>
  </cpu>
  ...
</domain>