具身大模型基础二强化学习微调技术（Reinforcement Learing Fine-tuning）

最新推荐文章于 2025-05-19 01:00:00 发布

大模型入门学习

最新推荐文章于 2025-05-19 01:00:00 发布

阅读量1.1k

点赞数 10

文章标签：人工智能大模型教程学习大模型入门 llama 大模型 AI

本文链接：https://blog.youkuaiyun.com/2401_84494441/article/details/144702955

版权

ReinforcementLearningFine-Tuning(RLFine-Tuning)是指在强化学习（RL）过程中，基于已经训练好的模型进行进一步的优化或调整，以便在特定任务或环境中获得更好的性能。通常，Fine-Tuning是对一个已有的模型进行微调，使其在新的、通常是更狭窄的任务空间中表现更好。目前对具身大模型强化学习微调相关研究还比较少，本文主要针对FLaRe和DPPO进行分析

简介

大规模行为克隆（BC）利用大量的现实世界和模拟演示数据集（如RT-1、RT-2、RT-X和SPOC）来训练高容量的策略，能够执行许多不同的任务。虽然BC策略表现出了一定的前景，但它们在直接部署到现实世界时仍然存在根本性的限制：模型只能在训练过程中观察到的状态下工作，这使得它们难以超越专家轨迹进行泛化。因此，当面对不熟悉的状态时，这些策略往往难以适应，且难以有效地从错误中恢复。

另一方面，强化学习（RL）提供了一种互补的方法，通过试错学习直接优化机器人的表现，且当有明确的奖励函数时，RL算法已经在多个领域取得了许多成功。然而，许多RL算法以样本效率低下著称，需要大量的训练时间。随着任务范围的增加和动作空间的扩展，RL策略很难起步，因为搜索空间非常庞大。此外，RL依赖手工设计的奖励函数，这极大地限制了其可扩展性。

FLaRe方法

FLaRe中提出了一种有效、可扩展且稳健的解决方案，用于大规模强化学习微调机器人策略。如图所示，FLaRe从一个多任务机器人策略开始，并通过大量的仿真进行大规模RL微调，

FLaRe实现了高效的训练，与之前的最先进方法相比，训练时间减少了15倍，且只需简单的稀疏奖励，不需要手工设计的奖励函数（图1右上角）。

FLaRe实现了超越BC训练任务的泛化。即使对于没有专家轨迹或奖励形状的新任务，FLaRe也能通过微调实现最先进的性能（图1左下角）。

FLaRe促进了对新机器人形态和行为的快速适应，显著增强了基础模型的灵活性和适用性（图1右下角）

FLaRe通过对预训练模型πθ\pi_\thetaπθ进行强化学习（RL）微调，解决了这两个问题。FLaRe的关键思想是通过一系列设计选择，实现稳定和有效的RL微调，这些设计包括：

1.利用大规模多任务模型作为基础模型，

2.通过广泛使用仿真实现大规模微调，

3.一系列算法设计用于稳定RL微调过程。

如图FLaRe引入了一系列设计选择，以帮助稳定强化学习（RL）训练过程，包括：

1.从多任务机器人策略进行微调，

2.在仿真中进行大规模微调，

3.使用基于策略（on-policy）算法，而非基于策略外（off-policy）方法，

4.相较于从头开始进行RL时，使用较小的学习率，

5.禁用熵奖励目标，以防在训练初期潜在地扭曲策略，

6.将演员（actor）和评论员（critic）网络分离，以避免评论员更新影响策略预测。

A.从多任务机器人模型进行微调

FLaRe的第一个关键设计选择是从一个多任务预训练的大型模型（即基础机器人模型）开始。与从单一任务的小规模网络进行微调（如许多前期工作[12]–[14,43]中的做法）相比，从机器人基础模型开始有三个关键优势。

首先，在多样化任务上预训练的模型能够掌握更强大的表示能力和更具多样性的行为先验，这将有助于微调过程。

第二，这些基础机器人模型所配备的高能力网络架构（例如大规模变换器模型）带来了良好的归纳偏差，可以促进泛化，这对微调至关重要。

最重要的是，这些模型的多任务能力使我们能够复用同一个模型进行不同任务的微调。事实上，正如我们将在第V-B节中的实验中展示的那样，我们甚至可以对那些预训练策略从未见过的任务和形态进行微调，并且仍然能够获得良好的表现。

虽然我们的方法原则上可以应用于任何基础机器人模型，但在本工作中，我们专注于对SPOC模型进行微调（图3所示）[7]——一个用于移动操作任务的多任务变换器模型，该模型是在大规模的最短路径专家轨迹上训练的，这些轨迹收集自Objaverse-PopulatedProcTHOR房屋[45]–[47]。更多关于SPOC模型的细节可以在附录VI-E中找到。

B.在仿真中进行大规模微调

FLaRe的第二个关键设计选择是通过广泛使用仿真进行大规模微调。

机器人和具身AI的最新进展为我们提供了一套用于仿真机器人任务的工具[45,48]–[52]。在本工作中，我们使用AI2THOR[45]来进行大规模的仿真微调，涵盖了多样的物体和场景，包括150k个程序生成的PROCTHOR房屋[47]和800K+注释的3D物体[46]。

在机器人领域使用仿真时，解决仿真到现实的差距[53]成为一个关键挑战。在FLaRe中，类似于Ehsani等人[7]的做法，我们采用了两种技术来促进仿真到现实的迁移。

首先，我们进行广泛的领域随机化，包括颜色增强、应用随机裁剪和图像的海报化处理。

第二，我们通过DinoV2[54]提取视觉特征，DinoV2是一个预训练的基础视觉模型，它能够捕捉到跨仿真和现实世界都能泛化的有用特征。

为了确保变换器策略和价值网络的大规模训练，我们采用了KV-cache技术[55]来降低网络推理的计算成本，类似于Zeng等人[10]的做法。KV-cache技术缓存并重用一个回合内早期观测的键值对。这样可以将变换器网络的推理复杂度从二次复杂度降低到线性复杂度，这对于负担得起的大规模RL微调至关重要。

C.稳定RL微调

最后，我们引入了一系列简单但非常关键的算法选择，以确保RL微调的稳定性。尽管这些技术相对简单，但正如我们将在第V-E节的消融研究中展示的那样，每个选择对于确保训练稳定性和获得良好的性能都非常重要。

使用策略算法离策略RL方法[56,57]可以在训练过程中使用离策略数据，从而实现样本效率高的RL。然而，与策略方法相比，离策略RL通常在理论和实践中都不太稳定，并且对超参数更敏感，这主要是由于与“致命三元组”[8]相关的问题。在本工作中，由于我们完全在仿真中进行微调，因此不太受RL算法样本效率的限制，因此选择使用策略算法来确保稳定的微调。具体来说，我们使用PPO[58]，一种最先进的策略梯度方法。

采取较小的更新步长在为RL设置学习率时，通常的做法是重用之前在相同或类似领域中成功的学习率。然而，我们在FLaRe中发现，从现有策略进行微调需要比从头开始训练时低得多的学习率。例如，在物体导航任务中，之前的最先进结果是使用PPO从零开始训练，并使用2e-4的学习率。在FLaRe中，当对相同任务进行微调时，我们必须将学习率降低一个数量级才能实现稳定学习。值得注意的是，我们在FLaRe中并未进行额外的学习率调节——所有实验和任务都使用相同的学习率。

禁用熵奖励PPO目标[58]包含熵奖励项，它促进策略网络预测的动作分布的熵，以确保足够的探索。然而，我们发现，当从预训练的策略网络进行微调时，这个额外的熵项会迅速扭曲策略梯度更新，导致预训练策略的“遗忘”。因此，我们在FLaRe的PPO更新中移除了这个熵奖励项。

禁用特征共享在将RL应用于高维观测（如图像）时，标准做法是让执行者网络和评估者网络共享特征提取器，这有助于学习有用的特征。然而，我们发现，在RL微调过程中，特征共享实际上会损害性能，因为评估损失的梯度会改变预训练特征，从而导致动作预测的恶化。此外，在RL微调过程中，由于预训练的基础模型应该已经捕获了良好的表示，因此执行者和评估者网络不需要共享相同的特征提取器。因此，在FLaRe中，我们将策略和评估者网络初始化为独立的网络，两个网络都使用预训练变换器策略的权重和架构。评估者网络的策略头被随机初始化的值替代。

我们发现，这四个训练组件都非常重要，移除其中任何一个都会导致训练崩溃。

DDPO的性能和优化

DDPO在性能提升上，特别依赖于PPO（ProximalPolicyOptimization，近端策略优化）和动态噪声调度两大关键机制。

PPO提升训练稳定性

近端策略优化（PPO）是强化学习中的一种算法，通过控制策略更新的幅度，防止策略在训练过程中过度调整而导致的不稳定性。在DDPO中，PPO通过以下方式提升训练的稳定性：

1.策略更新的幅度控制：

PPO会对每个时间步的策略更新进行限制，确保更新幅度不会过大。这种更新控制防止了策略在训练中出现极端变化，从而提高了策略更新的稳定性。尤其在复杂环境中，PPO能够保证扩散模型的策略微调逐步进行，避免因环境反馈不一致而导致的策略崩溃。

2.优势函数估计与平滑：

PPO通过对每一步的优势函数进行估计，在多次更新中缓和了策略的波动。DDPO基于PPO的这一特性，在去噪扩散模型的每一步中评估优势函数，确保生成的动作不仅稳定且更加合理。这一设计尤其适用于复杂或长时间任务中，例如在路径规划中，智能体可以根据优势函数评估选择更加可靠的路径，而非在短期内追求更高的奖励。

3.扩散模型去噪步骤的优化：

在去噪扩散模型的步骤中，DDPO通过PPO的更新控制，优化每一个时间步的去噪过程，使得每个步骤的策略更新都更加稳定。通过限制每步去噪后的策略偏差，DDPO可以确保去噪过程朝着较优的方向收敛，并最终实现整体策略的稳步提升。

动态噪声调度的关键

在DDPO的去噪扩散过程中，噪声调度对训练稳定性和策略探索能力起到了至关重要的作用。DDPO采用了动态噪声调度机制，使得模型可以在训练初期进行广泛的探索，而在后期逐渐收敛至最优策略。

1.动态调整噪声以平衡探索与收敛：

在训练初期，DDPO允许较大的噪声调度，使得扩散模型能够更大程度地探索环境中不同的策略方向。随着训练进展，噪声逐步减少，策略的收敛速度随之加快。这种动态调度平衡了探索与收敛的矛盾，使得策略既能充分探索可能的最优解，又能在后期有效收敛。

2.温柔去噪机制：

DDPO在去噪过程的最后几步引入了“温柔去噪”机制，即对模型在最后几步进行微调，使得模型在测试时具有更强的泛化能力。这一温柔去噪过程通过小幅度调整去噪步骤的参数，使策略在稳定性和泛化性上取得平衡。具体来说，温柔去噪机制能保证最终生成的动作序列在新环境中也具备较高的表现能力。

总结

ReinforcementLearningFine-Tuning是一种基于已有强化学习模型进行优化的技术，旨在使模型能够在特定任务或环境中获得更好的性能。它常用于迁移学习、特定任务优化和快速适应新环境。通过适当调整学习策略和参数，Fine-Tuning可以帮助提升模型的效率和表现，但同时也需要注意防止过拟合和灾难性遗忘等问题。