第五章:IL与RL抓取

终于更新了,实在太忙了

Imitation Learning

5.1 Recap

We have covered so far :

  • Traditional robotics method
    • Kinematic, planning, control
  • Pose estimation and camera geometries

  • 6DoF pose estimation for instance, category, unknown object

  • Camera calibration, 2D to 3D projection

  • Get the geometric information of the object and environment

  • Grasping

    • Traditional grasping pipeline
    • Learning-based grasping
      • 2D plannar, 6DoF, multi-finger grasping

5.2 Intro to Imitation Learning

在机器人技术的背景下,示范学习 (LfD)、示范编程 (PbD) 和模仿学习 (IL) 是密切相关的范式,都涉及到使机器人能够学习任务或从人类演示中派生控制器。虽然这些术语通常可以互换使用,但根据上下文的不同,它们在重点或范围上可能有细微的差别。

在这里插入图片描述

著名的工作ACT, DP
在这里插入图片描述

T

• Given: expert demonstration data, or demonstrator
• Goal: learn a policy that mimics the expert

在这里插入图片描述

Learn a control policy from dataset
Autonomous driving:
• Input: vector space, or image, or BEV
• Output : trajectory, or control output
Robotic manipulation (act)
• Input: image, joint state
• Output: sequence of joint command.

ChauffeurNet
在这里插入图片描述

在这里插入图片描述
Learning Objective:
在这里插入图片描述

Behavior Cloning
• Simplistic supervised learning formulation
• Requires expert data (s, a)
Interactive Imitation Learning
• Experts help to interactively generate policy and data
• Requires expert policy (in addition to the data)
• Dagger
Inverse Reinforcement Learning
• RL formulation
• Reward learning
在这里插入图片描述

MDP: Overview

在这里插入图片描述

5.3 Behavior Cloning

T : Mimic the expert with collected data (s, a*)
在这里插入图片描述

object;在这里插入图片描述
Learning
• Minimize Loss of collected expert trajectory (s, a*)
p Policy:
• Action from given state s
π θ ( s ) , o r π ( s ) \pi_{\theta}(s), or \pi(s) πθ<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值