Dissecting the Impact of Mobile DVFS Governors on LLM Inference Performance and Energy Efficiency

移动设备LLM推理:DVFS调控器影响及FUSE方案

文章主要内容总结

本文聚焦移动设备上大型语言模型(LLM)推理时,动态电压频率调节(DVFS)调控器对性能和能效的影响,核心内容如下:

  1. 问题发现:当前移动设备的CPU、GPU和内存调控器独立工作,缺乏协调,导致LLM推理的延迟和能效表现不佳。在相同能耗下,默认调控器的预填充和解码延迟比最优频率组合最多高40.4%;在相同延迟下,能耗最多高16.6%。
  2. 原因分析:通过控制实验发现,独立调控器存在两大问题:(1)单独工作时,CPU和GPU调控器倾向于选择过低频率,导致延迟增加;(2)协同工作时,CPU和GPU调控器会触发“向下螺旋”效应——相互促使对方降低频率,进一步恶化性能。
  3. 解决方案:设计了统一能效调控器FUSE,通过离线 profiling 搜索CPU、GPU、内存的最优频率组合,在相同能耗下降低延迟,或在相同延迟下降低能耗。实验显示,FUSE平均减少7.0%-16.9%的首 token 生成时间(TTFT)和25.4%-36.8%的每输出 token 时间(TPOT)。

创新点

  1. 首次深入研究移动设备调控器的协同作用:揭示了CPU、GPU和内存调控器在LLM推理中的相互影响,尤其是“向下螺旋”效应的存在及其对性能的损害。
  2. 提出统一调控器FUSE:通过离线搜索最优频率组合,解决了独立调控器缺乏协调的问题,实现了LLM推理性能和能效的联合优化。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值