Pretrain: Learning to Act without Actions Learning to Act without Actions

本文介绍了一种名为LAPO的方法,它利用未标注的网络视频数据推断潜在动作和策略,通过逆动力学和前向动力学模型进行预训练,以支持在线和离线强化学习。该方法采用信息瓶颈和矢量量化技术,以提高策略表征的效率和解耦性,尽管存在延迟效应和随机性挑战。

ICLR 2024 Spotlight
paper

Intro

利用海量网络视频数据对模型预训练是提升算法效率的有效方法。然而此类数据缺乏offline下的任务动作标签,因此应用于RL困难。本文提出LAPO则是从只包含观测的演示中推断潜在动作在以及隐空间策略表现形式,为在线RL以及离线RL提供预训练的策略。

Method

Latent action representation

LAPO预训练阶段包含两个模型:逆动力学模型 P I D M ( z t ∣ o t , o t + 1 ) P_{IDM}(z_t|o_t,o_{t+1}) PIDM(ztot,ot+1)和前向动力学模型 P F D M ( o t + 1 ∣ o t , z t ) P_{FDM}(o_{t+1}|o_t,z_{t}) PFDM(ot+1ot,zt),
在这里插入图片描述
而在实际使用中,LAPO采样一个k-steps sequence的历史数据以及下一时刻的观测预测la

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值