NUMA架构的CPU – 你真的用好了么?

本文探讨了非统一内存访问(NUMA)架构下MySQL面临的性能挑战及其解决方案。深入分析了NUMA架构的特点、Linux内核的内存分配策略,并提出了多种优化方法,包括使用numactl工具、调整内存分配策略等。

本文从NUMA的介绍引出常见的NUMA使用中的陷阱,继而讨论对于NUMA系统的优化方法和一些值得关注的方向。

文章欢迎转载,但转载时请保留本段文字,并置于文章的顶部 作者:卢钧轶(cenalulu) 本文原文地址:http://cenalulu.github.io/linux/numa/

NUMA简介

这部分将简要介绍下NUMA架构的成因和具体原理,已经了解的读者可以直接跳到第二节。

为什么要有NUMA

在NUMA架构出现前,CPU欢快的朝着频率越来越高的方向发展。受到物理极限的挑战,又转为核数越来越多的方向发展。如果每个core的工作性质都是share-nothing(类似于map-reduce的node节点的作业属性),那么也许就不会有NUMA。由于所有CPU Core都是通过共享一个北桥来读取内存,随着核数如何的发展,北桥在响应时间上的性能瓶颈越来越明显。于是,聪明的硬件设计师们,先到了把内存控制器(原本北桥中读取内存的部分)也做个拆分,平分到了每个die上。于是NUMA就出现了!

NUMA是什么

NUMA中,虽然内存直接attach在CPU上,但是由于内存被平均分配在了各个die上。只有当CPU访问自身直接attach内存对应的物理地址时,才会有较短的响应时间(后称Local Access)。而如果需要访问其他CPU attach的内存的数据时,就需要通过inter-connect通道访问,响应时间就相比之前变慢了(后称Remote Access)。所以NUMA(Non-Uniform Memory Access)就此得名。
这里写图片描述

我们需要为NUMA做什么

假设你是Linux教父Linus,对于NUMA架构你会做哪些优化?下面这点是显而易见的:

既然CPU只有在Local-Access时响应时间才能有保障,那么我们就尽量把该CPU所要的数据集中在他local的内存中就OK啦~

没错,事实上Linux识别到NUMA架构后,默认的内存分配方案就是:优先尝试在请求线程当前所处的CPU的Local内存上分配空间。如果local内存不足,优先淘汰local内存中无用的Page(Inactive,Unmapped)。 那么,问题来了。。。

NUMA的“七宗罪”

几乎所有的运维都会多多少少被NUMA坑害过,让我们看看究竟有多少种在NUMA上栽的方式:

MySQL – The MySQL “swap insanity” problem and the effects of the NUMA architecture
PostgreSQL – PostgreSQL, NUMA and zone reclaim mode on linux
Oracle – Non-Uniform Memory Access (NUMA) architecture with Oracle database by examples
Java – Optimizing Linux Memory Management for Low-latency / High-throughput Databases
究其原因几乎都和:“因为CPU亲和策略导致的内存分配不平均”及“NUMA Zone Claim内存回收”有关,而和数据库种类并没有直接联系。所以下文我们就拿MySQL为例,来看看重内存操作应用在NUMA架构下到底会出现什么问题。

MySQL在NUMA架构上会出现的问题

几乎所有NUMA + MySQL关键字的搜索结果都会指向:Jeremy Cole大神的两篇文章

The MySQL “swap insanity” problem and the effects of the NUMA architecture
A brief update on NUMA and MySQL
大神解释的非常详尽,有兴趣的读者可以直接看原文。博主这里做一个简单的总结:

CPU规模因摩尔定律指数级发展,而总线发展缓慢,导致多核CPU通过一条总线共享内存成为瓶颈
于是NUMA出现了,CPU平均划分为若干个Chip(不多于4个),每个Chip有自己的内存控制器及内存插槽
CPU访问自己Chip上所插的内存时速度快,而访问其他CPU所关联的内存(下文称Remote Access)的速度相较慢三倍左右
于是Linux内核默认使用CPU亲和的内存分配策略,使内存页尽可能的和调用线程处在同一个Core/Chip中
由于内存页没有动态调整策略,使得大部分内存页都集中在CPU 0上
又因为Reclaim默认策略优先淘汰/Swap本Chip上的内存,使得大量有用内存被换出
当被换出页被访问时问题就以数据库响应时间飙高甚至阻塞的形式出现了
这里写图片描述

解决方案

Jeremy Cole大神推荐的三个方案如下,如果想详细了解可以阅读 原文

numactl –interleave=all
在MySQL进程启动前,使用sysctl -q -w vm.drop_caches=3清空文件缓存所占用的空间
Innodb在启动时,就完成整个Innodb_buffer_pool_size的内存分配
这三个方案也被业界普遍认可可行,同时在 Twitter 的5.5patch 和 Percona 5.5 Improved NUMA Support 中作为功能被支持。

不过这种三合一的解决方案只是减少了NUMA内存分配不均,导致的MySQL SWAP问题出现的可能性。如果当系统上其他进程,或者MySQL本身需要大量内存时,Innodb Buffer Pool的那些Page同样还是会被Swap到存储上。于是又在这基础上出现了另外几个进阶方案

配置vm.zone_reclaim_mode = 0使得内存不足时去remote memory分配优先于swap out local page
echo -15 > /proc//oom_adj调低MySQL进程被OOM_killer强制Kill的可能
memlock
对MySQL使用Huge Page(黑魔法,巧用了Huge Page不会被swap的特性)

重新审视问题

如果本文写到这里就这么结束了,那和搜索引擎结果中大量的Step-by-Step科普帖没什么差别。虽然我们用了各种参数调整减少了问题发生概率,那么真的就彻底解决了这个问题么?问题根源究竟是什么?让我们回过头来重新审视下这个问题:

NUMA Interleave真的好么?

为什么Interleave的策略就解决了问题? 借用两张 Carrefour性能测试 的结果图,可以看到几乎所有情况下Interleave模式下的程序性能都要比默认的亲和模式要高,有时甚至能高达30%。究其根本原因是Linux服务器的大多数workload分布都是随机的:即每个线程在处理各个外部请求对应的逻辑时,所需要访问的内存是在物理上随机分布的。而Interleave模式就恰恰是针对这种特性将内存page随机打散到各个CPU Core上,使得每个CPU的负载和Remote Access的出现频率都均匀分布。相较NUMA默认的内存分配模式,死板的把内存都优先分配在线程所在Core上的做法,显然普遍适用性要强很多。
这里写图片描述

也就是说,像MySQL这种外部请求随机性强,各个线程访问内存在地址上平均分布的这种应用,Interleave的内存分配模式相较默认模式可以带来一定程度的性能提升。 此外 各种 论文 中也都通过实验证实,真正造成程序在NUMA系统上性能瓶颈的并不是Remote Acess带来的响应时间损耗,而是内存的不合理分布导致Remote Access将inter-connect这个小水管塞满所造成的结果。而Interleave恰好,把这种不合理分布情况下的Remote Access请求平均分布在了各个小水管中。所以这也是Interleave效果奇佳的一个原因。

那是不是简简单单的配置个Interleave就已经把NUMA的特性和性能发挥到了极致呢? 答案是否定的,目前Linux的内存分配机制在NUMA架构的CPU上还有一定的改进空间。例如:Dynamic Memory Loaction, Page Replication。

Dynamic Memory Relocation 我们来想一下这个情况:MySQL的线程分为两种,用户线程(SQL执行线程)和内部线程(内部功能,如:flush,io,master等)。对于用户线程来说随机性相当的强,但对于内部线程来说他们的行为以及所要访问的内存区域其实是相对固定且可以预测的。如果能对于这把这部分内存集中到这些内存线程所在的core上的时候,就能减少大量Remote Access,潜在的提升例如Page Flush,Purge等功能的吞吐量,甚至可以提高MySQL Crash后Recovery的速度(由于recovery是单线程)。 那是否能在Interleave模式下,把那些明显应该聚集在一个CPU上的内存集中在一起呢? 很可惜,Dynamic Memory Relocation这种技术目前只停留在理论和实验阶段。我们来看下难点:要做到按照线程的行为动态的调整page在memory的分布,就势必需要做线程和内存的实时监控(profile)。对于Memory Access这种非常异常频繁的底层操作来说增加profile入口的性能损耗是极大的。在 关于CPU Cache程序应该知道的那些事的评论中我也提到过,这个道理和为什么Linux没有全局监控CPU L1/L2 Cache命中率工具的原因是一样的。当然优化不会就此停步。上文提到的Carrefour算法和Linux社区的Auto NUMA patch都是积极的尝试。什么时候内存profile出现硬件级别,类似于CPU中 PMU 的功能时,动态内存规划就会展现很大的价值,甚至会作为Linux Kernel的一个内部功能来实现。到那时我们再回过头来审视这个方案的实际价值。

Page Replication 再来看一下这些情况:一些动态加载的库,把他们放在任何一个线程所在的CPU都会导致其他CPU上线程的执行效率下降。而这些共享数据往往读写比非常高,如果能把这些数据的副本在每个Memory Zone内都放置一份,理论上会带来较大的性能提升,同时也减少在inter-connect上出现的瓶颈。实时上,仍然是上文提到的Carrefour也做了这样的尝试。由于缺乏硬件级别(如MESI协议的硬件支持)和操作系统原生级别的支持,Page Replication在数据一致性上维护的成本显得比他带来的提升更多。因此这种尝试也仅仅停留在理论阶段。当然,如果能得到底层的大力支持,相信这个方案还是有极大的实际价值的。

究竟是哪里出了问题

NUMA的问题? NUMA本身没有错,是CPU发展的一种必然趋势。但是NUMA的出现使得操作系统不得不关注内存访问速度不平均的问题。

Linux Kernel内存分配策略的问题? 分配策略的初衷是好的,为了内存更接近需要他的线程,但是没有考虑到数据库这种大规模内存使用的应用场景。同时缺乏动态调整的功能,使得这种悲剧在内存分配的那一刻就被买下了伏笔。

数据库设计者不懂NUMA? 数据库设计者也许从一开始就不会意识到NUMA的流行,或者甚至说提供一个透明稳定的内存访问是操作系统最基本的职责。那么在现状改变非常困难的情况下(下文会提到为什么困难)是不是作为内存使用者有义务更好的去理解使用NUMA?

总结

其实无论是NUMA还是Linux Kernel,亦或是程序开发他们都没有错,只是还做得不够极致。如果NUMA在硬件级别可以提供更多低成本的profile接口;如果Linux Kernel可以使用更科学的动态调整策略;如果程序开发人员更懂NUMA,那么我们完全可以更好的发挥NUMA的性能,使得无限横向扩展CPU核数不再是一个梦想。

Percona NUMA aware Configuration
Numa system performance issues – more than just swapping to consider
MySQL Server and NUMA architectures
Checking /proc/pid/numa_maps can be dangerous for mysql client connections
on swapping and kernels
Optimizing Linux Memory Management for Low-latency / High-throughput Databases
Memory System Performance in a NUMA Multicore Multiprocessor
A Case for NUMA-aware Contention Management on Multicore Systems

<think>首先,用户提供了CPU配置的输出: - CPU(s): 3 - Thread(s) per core: 1 - Core(s) per socket: 1 - Socket(s): 3 - NUMA node(s): 1 我需要解释这些信息来确定负载的最大推荐值。 关键点: - **CPU(s)**: 3 – 这表示逻辑CPU或线程的总数。 - Thread(s) per core: 1 – 每个核心只有一个线程,所以没有超线程。 - Core(s) per socket: 1 – 每个插槽有一个核心。 - Socket(s): 3 – 有三个物理CPU插槽。 - 因此,总逻辑核心数 = Sockets × Cores per socket × Threads per core = 3 × 1 × 1 = 3。 用户之前讨论过平均负载不超过0.5 × CPU逻辑核数的规则。现在询问在这样的CPU配置下,负载最大能跑到多少。 我需要基于这个规则回答: - 逻辑核数 = 3 - 因此,0.5 × 3 = 1.5 在之前的交互中,我提到了平均负载的建议阈值:对于关键系统,建议不超过0.5倍逻辑核数;对于常规系统,不超过1倍。 用户提到了Oracle数据库,但对流畅要求高,所以保守阈值是合理的。 在这个具体配置: - 逻辑核数 = 3 - 最大负载推荐不超过逻辑核数(3)以避免饱和。 - 对于高流畅性要求,不超过0.5×3=1.5。 负载是通过Linux的/proc/loadavg读取的,表示系统等待CPU资源的任务数。 - 如果负载超过逻辑核心数(3),表示系统过载。 - 建议阈值:对于Oracle数据库流畅运行,负载应持续低于0.5×3=1.5,但可以容忍到3。 在回答时,我需要: 1. 解释CPU配置:总共3个逻辑核心。 2. 建议负载阈值: - 保守值(流畅要求高):不超过0.5×3=1.5 - 常规值:不超过3(100%利用率) 3. 提醒负载是三个值(1分钟,5分钟,15分钟),建议关注15分钟负载。 4. 结合Oracle环境:Oracle可能I/O等待,负载可能偏高,所以需要综合监控。 现在,回答格式要求: - 用中文回答。 - 回答完问题后,必须提出3-5个§§相关问题§§。 - 第一行必须是完整的"§§相关问题§§",禁止换行分散。 - 相关问题基于用户的问题和我的回答。 结构化回答: 1. 分析CPU配置:提取关键信息,确认逻辑核心数为3。 2. 解释负载最大推荐值: - 根据行业标准,对于数据库系统,建议平均负载不超过逻辑核数。 - 对于高流畅性Oracle数据库,保守阈值是0.5×逻辑核数=1.5。 - 最大可容忍值高达3,但超过1.5就可能开始影响性能。 - 负载不是严格的极限值;系统可能在负载5时运行,但性能差。 3. 建议行动:监控负载,结合其他指标如CPU使用率、I/O等待。 4. 输出相关问题。 相关问题:基于用户的CPU配置、负载计算、Oracle环境。 - 例如: 1. 如何在我的CPU配置下监控实时负载? 2. 对于只有3个核心的Oracle数据库,负载超过1.5时该怎么办? 3. 是否需要考虑NUMA架构在这个配置下的影响? 4. 如何优化Oracle参数以减少负载? 5. 在低核心数系统上,负载阈值设置与其他指标的关系? 确保相关问题3-5个。 最终回答: - 开头:解释配置和负载阈值。 - 中间:详细说明。 - 结尾:"§§相关问题§§",然后列出3-5个问题。 完整输出。 </think>### CPU配置分析 根据您提供的`lscpu`输出: - **逻辑CPU核心总数**:`CPU(s): 3`(表示系统有3个逻辑核心,因为`Thread(s) per core: 1`、`Core(s) per socket: 1`、`Socket(s): 3`,无超线程)。 - **关键特性**:单NUMA节点(`NUMA node(s): 1`),对负载分配影响较小。 ### 负载最大推荐值 平均负载(load average)表示系统等待CPU资源的任务数(包括运行中和不可中断任务)。基于行业标准(尤其对Oracle数据库流畅要求高): 1. **流畅运行阈值**(保守值): - 建议 **平均负载不超过0.5 × 逻辑核心数** = 0.5 × 3 = **1.5**。 - *理由*:Oracle是I/O密集型数据库,负载超过1.5可能导致事务延迟(如锁竞争、I/O等待),影响流畅性。 - *监控重点*:持续关注15分钟负载(如`uptime`或`cat /proc/loadavg`第二值)。 2. **容忍上限**(非紧急): - 平均负载不超过逻辑核心数(即 **≤3**),超过此值系统会饱和(CPU队列堆积,响应时间飙升)。 - *示例*:若15分钟负载 >3,需立即扩容或优化。 3. **动态调整**: - 实测基线:在Oracle业务高峰运行测试,记录实际负载(如`AWR报告`),若基线负载稳定在1.0,则告警线可设为1.3×1.0=1.3。 - *警告*:负载是软指标;若负载>1.5但响应时间正常(如SQL查询<100ms),无需干预;反之负载<1.5但响应>1s,需紧急排查。 ### 实操建议 ```bash # 实时监控负载(每2秒刷新) watch -n 2 "echo '当前负载/核心比:'; awk '{print \$1/3}' /proc/loadavg" ``` **输出解释**: - 比值 ≤0.5(负载≤1.5):系统流畅。 - 比值 >0.5:检查Oracle会话阻塞(`v$session_wait`)。 - 比值 ≥1.0(负载≥3):必须扩容(如增加CPU或优化索引)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值