如何在家用设备上运行 Llama 3.1 405B？搭建 AI 集群

最新推荐文章于 2025-04-28 14:35:15 发布

子然在打码

最新推荐文章于 2025-04-28 14:35:15 发布

阅读量1.3k

点赞数 19

文章标签： llama 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/kukuu8/article/details/141635990

版权

在开放式 LLM 模型和封闭式 LLM 模型之间的竞争中，开放式模型的最大优势是您可以在本地运行它们。除了电力和硬件成本外，您无需依赖外部提供商或支付任何额外费用。但是，随着模型大小的增加，这种优势开始减弱。运行需要大量内存的大型模型并不容易。幸运的是，张量基准和分布式推理可能会有所帮助。

Tensor Parallism

LLM 中的大多数计算都涉及矩阵乘法，约占所有计算的 97-98%。矩阵乘法很容易在多个 CPU/GPU 内核之间并行化。我们可以在多个设备上执行相同的操作。可以以这种方式对设备进行拆分，即每个设备仅计算矩阵乘法的一个切片。如果单个设备可以在几秒钟内n计算出矩阵乘法，那么两个设备应该在几秒钟内n / 2计算出来！这就是张量视差。

这听起来很有希望，但这里的主要瓶颈是同步。我们可以加快乘法的速度，但在某些时候，我们需要同步神经网络的状态。这需要时间。专业 AI 集群使用高级链接在 GPU（如 NVLink）之间进行通信，从而实现非常高的传输速度。但是，家庭设备的以太网速度较慢。但令人惊讶的是，如果模型执行程序的架构旨在减小传输大小，那么同步 LLM 所需的数据量可能非常低。例如，如果集群由 2 个设备组成，则量化的 Llama 3 8B 到 Q40 格式（6.3 GB）每个令牌只需要 1 MB 的数据来同步。这是非常非常低的。

我们到了。张量并行

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。