本文是LLM系列文章,针对《EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models》的翻译。
摘要
GPT和LLaMa等大型语言模型(LLM)由于其在广泛的机器学习任务中的卓越能力,迎来了机器智能的一场革命。然而,LLM从数据中心向边缘设备的过渡带来了一系列挑战和机遇。虽然这种转变可以增强隐私和可用性,但这些模型的巨大参数大小阻碍了这种转变,导致不切实际的运行时成本。
鉴于这些考虑,我们介绍了EdgeMoE,这是第一个为专家(MoE)LLM的混合量身定制的设备上推理引擎,这是稀疏LLM的一种流行变体,其参数大小尺度显示出几乎恒定的计算复杂性。EdgeMoE通过在存储层次结构中战略性地划分模型,实现了内存和计算效率。具体而言,非专家权重存储在设备的存储器中,而专家权重则保存在外部存储器中,只有在激活时才会被提取到存储器中。这一设计的基础是一个关键的见解,即专家权重虽然庞大,但由于激活模式稀疏,很少被访问。为了进一步减轻与专家I/O交换相关的开销,EdgeMoE结合了两种创新技术:(1)专家位宽自适应:这种方法在可接受的精度损失水平上减少了专家权重的大小。(2) 专家管理:它提前预测将被激活的专家,并将其预加载到计算机I/O管道中,从而进一步优化流程。在对成熟的MoE LLM和各种边缘设备进行的经验评估中,与竞争对手的基线解决方案相比,EdgeMoE展示了显著的内存节约和性能改进。
EdgeMoE是首个针对MoE LLM的设备端推理引擎,解决大型语言模型在边缘设备上运行的内存和计算效率问题。通过专家位宽自适应和专家预加载技术,实现内存节省和性能提升,允许在边缘设备上实时推理MoE LLM。
已下架不支持订阅

9096

被折叠的 条评论
为什么被折叠?



