研究突破：无矩阵乘法的LLMs 计算！

最新推荐文章于 2025-11-26 15:49:07 发布

原创最新推荐文章于 2025-11-26 15:49:07 发布 · 504 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大语言模型 #ai大模型 #LLMs #矩阵 #计算机技术 #大模型应用

通过在推理过程中使用优化的内核，内存消耗可以比未优化模型减少超过10倍。🤯

该论文总结道，有可能创建第一个可扩展的无矩阵乘法LLM，在数十亿参数规模上实现与最先进的Transformer相媲美的性能。

另一篇最新论文《语言模型物理学：第3.3部分，知识容量缩放规律》发现，模型实际上每个参数只使用了大约2位数据。因此，这些二进制/三进制方法确实有意义。

📌 提出的无矩阵乘法LLM用权重约束为{-1, 0, +1}的三进制累加代替了稠密层中的矩阵乘法操作，从而降低了计算成本和内存使用，同时保持了网络的表达能力。

📌 为了从自注意力机制中去除矩阵乘法，研究人员优化了门控循环单元（GRU），使其仅依赖元素级乘积，创建了无矩阵乘法线性GRU（MLGRU）令牌混合器。MLGRU通过去除与隐藏状态相关的权重，简化了GRU，实现了并行计算，并用三进制矩阵代替了剩余的权重。

📌 对于无矩阵乘法的通道混合，研究人员将门控线性单元（GLU）改为使用三进制权重的BitLinear层，从而消除了昂贵的矩阵乘法，同时在通道间保持了有效的信息混合。

📌 该论文引入了一个硬件高效的融合BitLinear层，优化了RMSNorm和BitLinear操作。通过融合这些操作并利用共享内存，训练速度提高了25.6%，内存消耗比未优化基线减少了61%。

📌 实验结果表明，无矩阵乘法LLM在下游任务中实现了与Transformer++基线相当的性能，随着模型规模的扩大，性能差距逐渐缩小。缩放规律投影表明，无矩阵乘法LLM在效率上可以超越Transformer++，并有可能在扩大规模时在损失上表现更好。

📌 为了利用无矩阵乘法LLM的轻量级操作，研究人员构建了一个定制的FPGA加速器。该加速器在13瓦的功率下处理数十亿参数规模的模型，展示了未来轻量级LLMs实现类脑效率的潜力。

论文《可扩展的无矩阵乘法语言模型》对比另一篇最新论文《1位LLMs时代》微软论文 👨‍🔧

两者都是优秀的论文，消除了LLM训练中的常规矩阵乘法。🏆

虽然在将权重限制为三进制集合{-1, 0, +1}方面存在一些概念上的相似性，但这两篇论文之间的关键区别如下👇

📌 《1位LLMs时代》论文的核心概念是将标准Transformer LLM架构的权重量化为1.58位（三进制{-1, 0, 1}值），同时使用8位激活。该论文介绍了一种名为BitNet b1.58的变体，基于BitNet架构，用三进制权重替代了nn.Linear层。然而，它仍然依赖于标准Transformer架构组件，如涉及矩阵乘法的自注意力机制。

📌 最新的《无矩阵乘法LM》架构则是对标准Transformers的更激进的改变，它通过使用基于循环的令牌混合器（MLGRU）捕获序列依赖性，和使用三进制权重的GLU通道混合器，完全去除了矩阵乘法。

📌 BitNet b1.58依赖于Transformer中的标准自注意力机制来捕捉令牌交互。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述