文章主要内容总结
本文聚焦移动设备上大型语言模型(LLM)推理时,动态电压频率调节(DVFS)调控器对性能和能效的影响,核心内容如下:
- 问题发现:当前移动设备的CPU、GPU和内存调控器独立工作,缺乏协调,导致LLM推理的延迟和能效表现不佳。在相同能耗下,默认调控器的预填充和解码延迟比最优频率组合最多高40.4%;在相同延迟下,能耗最多高16.6%。
- 原因分析:通过控制实验发现,独立调控器存在两大问题:(1)单独工作时,CPU和GPU调控器倾向于选择过低频率,导致延迟增加;(2)协同工作时,CPU和GPU调控器会触发“向下螺旋”效应——相互促使对方降低频率,进一步恶化性能。
- 解决方案:设计了统一能效调控器FUSE,通过离线 profiling 搜索CPU、GPU、内存的最优频率组合,在相同能耗下降低延迟,或在相同延迟下降低能耗。实验显示,FUSE平均减少7.0%-16.9%的首 token 生成时间(TTFT)和25.4%-36.8%的每输出 token 时间(TPOT)。
创新点
- 首次深入研究移动设备调控器的协同作用:揭示了CPU、GPU和内存调控器在LLM推理中的相互影响,尤其是“向下螺旋”效应的存在及其对性能的损害。
- 提出统一调控器FUSE:通过离线搜索最优频率组合,解决了独立调控器缺乏协调的问题,实现了LLM推理性能和能效的联合优化。
移动设备LLM推理:DVFS调控器影响及FUSE方案

订阅专栏 解锁全文
1084

被折叠的 条评论
为什么被折叠?



