在开放式 LLM 模型和封闭式 LLM 模型之间的竞争中,开放式模型的最大优势是您可以在本地运行它们。除了电力和硬件成本外,您无需依赖外部提供商或支付任何额外费用。但是,随着模型大小的增加,这种优势开始减弱。运行需要大量内存的大型模型并不容易。幸运的是,张量基准和分布式推理可能会有所帮助。
Tensor Parallism
LLM 中的大多数计算都涉及矩阵乘法,约占所有计算的 97-98%。矩阵乘法很容易在多个 CPU/GPU 内核之间并行化。我们可以在多个设备上执行相同的操作。可以以这种方式对设备进行拆分,即每个设备仅计算矩阵乘法的一个切片。如果单个设备可以在几秒钟内n
计算出矩阵乘法,那么两个设备应该在几秒钟内n / 2
计算出来!这就是张量视差。
这听起来很有希望,但这里的主要瓶颈是同步。我们可以加快乘法的速度,但在某些时候,我们需要同步神经网络的状态。这需要时间。专业 AI 集群使用高级链接在 GPU(如 NVLink)之间进行通信,从而实现非常高的传输速度。但是,家庭设备的以太网速度较慢。但令人惊讶的是,如果模型执行程序的架构旨在减小传输大小,那么同步 LLM 所需的数据量可能非常低。例如,如果集群由 2 个设备组成,则量化的 Llama 3 8B 到 Q40 格式 (6.3 GB) 每个令牌只需要 1 MB 的数据来同步。这是非常非常低的。
我们到了。张量并行