本文是LLM系列文章,针对《Mixtures of Experts Unlock Parameter Scaling for Deep RL》的翻译。
摘要
最近(自我)监督学习模型的快速发展在很大程度上是由经验缩放定律预测的:模型的性能与其大小成比例。然而,对于强化学习领域来说,类似的缩放定律仍然难以捉摸,因为增加模型的参数数量往往会损害其最终性能。在本文中,我们证明了将混合专家(MoE)模块,特别是软MoE,结合到基于价值的网络中,会产生更具参数可扩展性的模型,这可以通过各种训练机制和模型大小的显著性能提高来证明。因此,这项工作为发展强化学习的比例定律提供了强有力的经验证据。
1 引言
2 前言
3 混合专家用于深度RL
4 经验评估
5 未来方向
6 相关工作
7 讨论与结论
随着RL继续用于越来越复杂的任务,我们可能需要更大的网络。正如最近的研究所表明的(我们的结果也证实了这一点),天真地扩大网络参数