Distributed Inference and Fine-tuning of Large Language Models Over The Internet-优快云博客

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/135064268

本文探讨了如何在消费级网络的分布式设备上进行大型语言模型（LLM）的成本高效推理和微调，即使设备可能出现断开连接的情况。通过开发特殊的容错算法和负载平衡协议，可以在硬件不均衡的设备间有效地运行50B+参数的模型。在PETALS1系统中，实现了70B和176B参数模型的快速运行，比现有方法快10倍。同时，文章也考虑了这种方法的隐私和扩展性问题。

本文是LLM系列文章，针对《Distributed Inference and Fine-tuning of Large Language Models Over The Internet》的翻译。

摘要

大型语言模型（LLM）在许多NLP任务中都很有用，并且随着规模的增加而变得更加强大，最好的开源模型具有超过500亿个参数。然而，使用这些50B+模型需要高端硬件，这使得大多数研究人员无法使用它们。在这项工作中，我们研究了LLM的成本高效推理和微调方法，比较了局部策略和分布式策略。我们观察到，即使在消费级网络中的地理分布设备上，足够大的模型（50B+）也可以有效运行。这可以通过汇集多个研究小组和志愿者的空闲计算资源来高效地运行LLM。我们解决了两个悬而未决的问题：（1）如果任何设备可能突然断开连接，如何可靠地进行推理和微调；（2）如何在硬件不均衡的设备之间划分LLM，随意连接和离开。为了做到这一点，我们开发了特殊的容错推理算法和负载平衡协议，这些算法和协议可以自动分配设备，以最大限度地提高系统的总吞吐量。我们在PETALS1中展示了这些算法，PETALS1是一个去中心化的系统，在互联网上运行Llama 2（70B）和BLOOM（176B），比卸载交互生成快10倍。我们评估了我们的系统在模拟条件和横跨两大洲的真实世界设置中的性能。