
大型语言模型(LLMs)通常体积过大,难以直接在消费级硬件上使用。为缩减其规模,业界提出了多种量化技术来降低 LLMs 的内存占用。虽然近期 4 bit量化算法常会附带发布优化过的 CUDA 内核,但量化后 LLMs 的推理吞吐量仍远未达到理想状态。
使用 4 位模型(如 INT4 数据类型)进行推理时,会涉及 INT4xFP16 运算,即便使用现代 GPU 也速度缓慢,因此需要优化 CUDA 内核。
INT4 × FP16 是一种在 混合精度计算中常见的运算策略,主要用于 加速大语言模型(LLMs)推理或微调,核心思想是:
将模型权重用 4 位整数(INT4)表示,但在计算时与半精度浮点数(FP16)进行乘法运算。
IST 团队提出的混合自回归线性内核(Marlin)是一种高度优化的 INT4xFP16 矩阵乘法内核,可实现接近理想值(4 倍)的推理速度。
本文将阐述 Marlin 如何实现这种加速效果,随后演示如何将现有 GPTQ 模型转换为 Marlin 格式。我选用 Mistral 7B 模型进行测试,并通过 vLLM 验证推理速度。
订阅专栏 解锁全文
1249

被折叠的 条评论
为什么被折叠?



