对话πRL一作:RLinf流匹配 VLA 在线强化学习框架!π系列模型成功率提升至98%

「打通“生成模型”与“强化学习”的边界」

作者|深蓝学院

点击加入|16类交流群

近年来,基于流匹配的VLA模型(如π0, π0.5)已成为机器人领域的前沿方向。

这类模型能以极简方式建模多峰分布,生成高维、平滑的连续动作序列,在复杂操控任务中展现出显著潜力。

然而,VLA模型的训练严重依赖大规模、高质量的人类演示数据,其收集与标注成本高、周期长。强化学习可通过环境交互自主探索与迭代,有望降低对演示数据的依赖,并进一步提升模型性能上限。

目前,针对流匹配VLA的强化学习方法仍较为缺乏,主流研究多集中于自回归架构的VLA(如OpenVLA)。其核心挑战在于:流匹配模型通过迭代去噪生成动作,难以直接计算动作的对数似然,而这正是PPO、GRPO等策略梯度算法更新的关键。

在此背景下,清华、北大、CMU等多个国内外知名团队,共同提出了πRL——让 π 系列模型第一次具备了在线强化学习(Online RL)能力。

为深入解析这一突破性工作,12 月 9 日 20:00,我们特别邀请到 πRL 论文的第一作者——北京大学的陈康博士,带来一场深度技术分享。

提前加入交流群,获取公开课课件,并与同仁们深入探讨


 两种创新方案
    • Flow-Noise:在流匹配的去噪过程中引入可学习噪声网络

      把原本确定性的采样过程转化为离散时间的马尔可夫决策过程(MDP),从而获得精确的动作似然估计;

    • Flow-SDE:通过ODE→SDE 转换,将去噪方程改写为随机微分方程

      在保持分布一致的前提下引入探索性噪声,构建了内外双层 MDP,使模型能在“生成”和“交互”两个层面同时学习。

    通过这两种机制,πRL 实现了让“流模型”真正能在环境中以 RL 方式自我优化的能力。

     关键成果显示
    • 在LIBERO评测中,仅用少量演示数据结合RL,π0与π0.5模型成功率均提升至98%左右,大幅超越全量数据监督训练的结果。

    • 在高保真仿真环境 ManiSkill中,πRL 同样取得突破:模型成功率提升超过一倍,并展现出优秀的泛化性与执行效率。

    图片

    图片

    结果表明,πRL 不仅能让模型在小样本条件下自我强化,还能在复杂、多任务环境中保持高效泛化。

    12 月 9 日 20:00,πRL的核心作者——北京大学的陈康博士,将亲述πRL框架的核心思想与实现细节。

    (点击加入交流群)

    我们相信,优秀的人终会相遇。

    我们交流群见!12月9日直播来聊!

    根据提供的参考内容,虽未直接提及流匹配VLA模型提升通用机器人控制的方法,但已知π0是采用流匹配目标函数的强VLA,且在大规模机器人数据集上进行预训练,之后用LoRA从预训练的检查点进行微调,这可能是提升通用机器人控制的种途径。 在大规模机器人数据集上预训练,能让模型学习到更广泛、更通用的机器人控制相关特征和模式,使模型具备处理复杂情况的能力。而使用LoRA(Low-Rank Adaptation)从预训练的检查点进行微调,可在不大量增加可训练参数的情况下,快速适应特定的任务和数据,提高模型的性能和泛化能力,进而提升通用机器人控制水平。 ```python # 以下为模拟LoRA微调的简单代码示例(非完整可运行代码) import torch import torch.nn as nn # 假设这是预训练模型 class PretrainedModel(nn.Module): def __init__(self): super(PretrainedModel, self).__init__() self.fc = nn.Linear(10, 10) def forward(self, x): return self.fc(x) # 初始化预训练模型 pretrained_model = PretrainedModel() # 定义LoRA模块 class LoRA(nn.Module): def __init__(self, in_features, out_features, rank=4): super(LoRA, self).__init__() self.A = nn.Parameter(torch.randn(in_features, rank)) self.B = nn.Parameter(torch.randn(rank, out_features)) def forward(self, x): return torch.matmul(x, torch.matmul(self.A, self.B)) # 初始化LoRA模块 lora = LoRA(10, 10) # 将LoRA与预训练模型结合 class FineTunedModel(nn.Module): def __init__(self, pretrained_model, lora): super(FineTunedModel, self).__init__() self.pretrained_model = pretrained_model self.lora = lora def forward(self, x): out_pretrained = self.pretrained_model(x) out_lora = self.lora(x) return out_pretrained + out_lora # 初始化微调后的模型 fine_tuned_model = FineTunedModel(pretrained_model, lora) ```
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值