NUMA概述

本文介绍了非统一内存访问(NUMA)架构的基本概念及其在多处理器系统中的应用。文章详细解释了NUMA架构如何通过本地内存访问提高系统性能,并讨论了Socket、Core、Thread和Node等关键概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

NUMA是什么

【非统一内存访问(NUMA)是一种用于多处理器的电脑记忆体设计,内存访问时间取决于处理器的内存位置。 在NUMA下,处理器访问它自己的本地存储器的速度比非本地存储器(存储器的地方到另一个处理器之间共享的处理器或存储器)快一些。】

下图就描述了一个比较形象的NUMA架构:

在这里插入图片描述

我们有两个NUMA结点。每个NUMA结点有一些CPU, 一个内部总线,和自己的内存,甚至可以有自己的IO。每个CPU有离自己最近的内存可以直接访问。所以,使用NUMA架构,系统的性能会更快。在NUMA结构下,我们可以比较方便的增加CPU的数目。而在非NUMA架构下,增加CPU会导致系统总线负载很重,性能提升不明显。
每个CPU也可以访问另外NUMA结点上的内存,但是这样的访问,速度会比较慢。我们要尽量避免。应用软件如果没有意识到这种结构,在NUMA机器上,有时候性能会更差,这是因为,他们经常会不自觉的去访问远端内存导致性能下降。

NUMA的几个概念(Socket,Core,Thread , Node)

这里写图片描述

总结:

  • Socket就是主板上的CPU插槽;
  • Core就是socket里独立的一组程序执行的硬件单元,比如寄存器,计算单元等;
  • Thread:就是超线程hyperthread的概念,逻辑的执行单元,独立的执行上下文,但是共享core内的寄存器和计算单元。

NUMA体系结构中多了Node的概念,这个概念其实是用来解决core的分组的问题,具体参见下图来理解(图中的OS CPU可以理解thread),图中共有4个socket,每个socket 2个node,每个node中有8个thread,总共4(Socket)× 2(Node)× 8 (4core × 2 Thread) = 64个thread。

这里写图片描述

根据上面提到的,由于每个node内部有自己的CPU总线和内存,所以如果一个虚拟机的vCPU跨不同的Node的话,就会导致一个node中的CPU去访问另外一个node中的内存的情况,这就导致内存访问延迟的增加。在有些特殊场景下,比如NFV环境中,对性能有比较高的要求,就非常需要同一个虚拟机的vCPU尽量被分配到同一个Node中的pCPU上。

如何查看机器的NUMA拓扑结构

比较常用的命令就是lscpu,具体输出如下:

dylan@hp3000:~$ lscpu   
Architecture:          x86_64  
CPU op-mode(s):        32-bit, 64-bit  
Byte Order:            Little Endian  
CPU(s):                48                          //共有48个逻辑CPU(threads)  
On-line CPU(s) list:   0-47  
Thread(s) per core:    2                               //每个core有2个threads  
Core(s) per socket:    6                                //每个socket有6个cores  
Socket(s):             4                                //共有4个sockets  
NUMA node(s):          4                               //共有4个NUMA nodes  
Vendor ID:             GenuineIntel  
CPU family:            6  
Model:                 45  
Stepping:              7  
CPU MHz:               1200.000  
BogoMIPS:              4790.83  
Virtualization:        VT-x  
L1d cache:             32K                           //L1 data cache 32k  
L1i cache:             32K                            //L1 instruction cache 32k  (牛x机器表现,冯诺依曼+哈弗体系结构)  
L2 cache:              256K  
L3 cache:              15360K  
NUMA node0 CPU(s):     0-9,20-29        
NUMA node1 CPU(s):     10-19,30-39  

cpu0的cache信息可用下列命令查看:

# cat /sys/devices/system/cpu/cpu0/cache/index0/shared_cpu_list
0,20
# cat /sys/devices/system/cpu/cpu0/cache/index0/size
32K
# cat /sys/devices/system/cpu/cpu0/cache/index1/shared_cpu_list
0,20
# cat /sys/devices/system/cpu/cpu0/cache/index1/size
32K
# cat /sys/devices/system/cpu/cpu0/cache/index2/shared_cpu_list
0,20
# cat /sys/devices/system/cpu/cpu0/cache/index2/size
256K
# cat /sys/devices/system/cpu/cpu0/cache/index3/shared_cpu_list
0-9,20-29 
# cat /sys/devices/system/cpu/cpu0/cache/index3/size
15360K

其中,index0对应的是L1 Data Cache,index1对应的是L1 Instruction Cache,index2对应的是L2 Cache,index3对应的是L3 Cache.

从上面我们看到cpu0 和cpu20 是node0上的 core0里面的两个兄弟逻辑cpu,按照intel的组织架构,这两个cpu是共享L1 cache (数据cache和指令cache) 和L2 cache的 ,同numa上的cpu共享L3 cache。遍历所有的cpu信息,可知cpu的拓扑架构如下所示:

在这里插入图片描述

另外:CPU Cache Line定义了缓存一次载入数据的大小:

 # cat /sys/devices/system/cpu/cpu0/cache/index0/coherency_line_size
64

一般64位操作系统cache line为64。

上面的CPU拓扑架构图还不完整,每个node都有一个对应的本地内存。假设node0的本地内存标记为mem0,node1的本地内存标记为mem1。mem0对于node0就是本地内存,mem1对于node0就是远端内存;反之对于mem1亦有类似关系。

访问本地内存的速度要快于访问远端内存的速度。访问速度与node的距离有关系,node间的距离我们称为node distance

在这里插入图片描述
Node0的本地内存大小为32209MB,Node1的本地内存大小为32316MB。Node0到本地内存的distance为10,到node1的内存distance距离为20;Node1到本地内存的distance为10,到node0的内存distance距离为20。

参考:https://blog.youkuaiyun.com/weijitao/article/details/52884422

### NUMA 和 Sub-NUMA 架构概述 #### 非统一内存访问(NUMA) 非统一内存访问(Non-Uniform Memory Access, NUMA)是一种多处理器计算机架构设计,旨在优化大规模并行系统的性能。在这种架构中,每个处理器都有自己的本地内存,同时也可以通过互联网络访问其他处理器的远程内存[^1]。然而,由于物理距离的不同,访问本地内存的速度通常比访问远程内存更快。 这种架构的主要特点是: - **低延迟**:对于本地内存的操作具有较低的延迟。 - **高带宽**:本地内存提供了更高的数据传输速率。 - **扩展性**:支持更多的处理器和更大的内存容量,适用于高性能计算环境。 #### 子非统一内存访问(Sub-NUMA) 子非统一内存访问(Sub-NUMA 或者称为 Clustered NUMA)是对传统 NUMA 的一种改进或细分策略。它进一步将 NUMA 节点划分为更小的逻辑单元,从而减少跨节点通信带来的开销。具体来说,在某些硬件平台上,可以通过配置使多个 CPU 核心共享同一部分资源而形成一个小范围内的“集群”,这些集群内部的数据交换会更加高效[^2]。 其主要优势在于能够更好地适应特定工作负载需求以及改善缓存一致性协议效率等问题上表现突出: - **细粒度控制**:允许操作系统根据不同应用程序的要求灵活调整哪些区域应该被当作独立单位处理。 - **降低全局同步成本**:减少了整个系统范围内频繁发生的全网广播操作次数,提高了整体吞吐量。 两者对比来看,虽然都属于广义上的分布式存储体系结构范畴之内,但是它们侧重点各有不同——前者强调的是如何利用好现有的硬件布局来达到最佳效能;后者则是在此基础上探索更为精细化管理方式的可能性。 ```python # 示例代码展示如何查询当前 Linux 系统中的 NUMA 节点信息 import os def get_numa_info(): numa_nodes = [] with open('/proc/self/status', 'r') as f: lines = f.readlines() for line in lines: if "Node" in line: node_id = int(line.split()[1].strip('()')) numa_nodes.append(node_id) return list(set(numa_nodes)) print(get_numa_info()) ``` 上述脚本展示了获取运行于 Linux 平台下的进程所关联到的具体 NUMA 节点编号列表的方法之一[^3]。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

造夢先森

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值