Distributed Inference and Fine-tuning of Large Language Models Over The Internet

828 篇文章

已下架不支持订阅

本文探讨了如何在消费级网络的分布式设备上进行大型语言模型(LLM)的成本高效推理和微调,即使设备可能出现断开连接的情况。通过开发特殊的容错算法和负载平衡协议,可以在硬件不均衡的设备间有效地运行50B+参数的模型。在PETALS1系统中,实现了70B和176B参数模型的快速运行,比现有方法快10倍。同时,文章也考虑了这种方法的隐私和扩展性问题。

本文是LLM系列文章,针对《Distributed Inference and Fine-tuning of Large Language Models Over The Internet》的翻译。

互联网上大型语言模型的分布式推理与微调

摘要

大型语言模型(LLM)在许多NLP任务中都很有用,并且随着规模的增加而变得更加强大,最好的开源模型具有超过500亿个参数。然而,使用这些50B+模型需要高端硬件,这使得大多数研究人员无法使用它们。在这项工作中,我们研究了LLM的成本高效推理和微调方法,比较了局部策略和分布式策略。我们观察到,即使在消费级网络中的地理分布设备上,足够大的模型(50B+)也可以有效运行。这可以通过汇集多个研究小组和志愿者的空闲计算资源来高效地运行LLM。我们解决了两个悬而未决的问题:(1)如果任何设备可能突然断开连接,如何可靠地进行推理和微调;(2)如何在硬件不均衡的设备之间划分LLM,随意连接和离开。为了做到这一点,我们开发了特殊的容错推理算法和负载平衡协议,这些算法和协议可以自动分配设备,以最大限度地提高系统的总吞吐量。我们在PETALS1中展示了这些算法,PETALS1是一个去中心化的系统,在互联网上运行Llama 2(70B)和BLOOM(176B),比卸载交互生成快10倍。我们评估了我们的系统在模拟条件和横跨两大洲的真实世界设置中的性能。

1 引言

2 背景:高效训练和推理

3 方法

4 实验

5 结论

在本文中,我们介绍了一种新的容错算法,用于推理大型语言模型。最重要的是,我们引入了一种去中心化系统,用于在通过互联网连接的分布式不可靠设备上运行LLM,它显著优于在消费级硬件上运行推理的其他方法。我们证明了所提出的系统

已下架不支持订阅

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值