29、模仿学习中的多种算法解析

模仿学习中的多种算法解析

1. 随机混合迭代学习(SMILe)算法

1.1 算法原理

在许多情况下,我们可以利用专家的示范来训练策略。SMILe 算法就是这样一种方法,它通过不断生成新的数据集,并结合行为克隆技术来训练新的组件策略,然后将这些组件策略混合,逐步减少遵循专家策略的概率。

具体步骤如下:
1. 使用最新的策略 $\pi(k)$ 生成新的数据集 $D$,并向专家查询正确的动作。
2. 仅对这个新数据集应用行为克隆,训练一个新的组件策略 $\hat{\pi}(k)$。
3. 将这个新的组件策略与之前迭代中的组件策略混合,生成新的策略 $\pi(k + 1)$。

组件策略的混合由一个混合标量 $\beta \in (0, 1)$ 控制。遵循专家策略的概率为 $(1 - \beta)^k$,遵循 $\hat{\pi}(i)$ 的概率为 $\beta(1 - \beta)^{i - 1}$。随着迭代次数的增加,遵循原始专家策略的概率会逐渐衰减到零。

1.2 代码实现

struct SMILe
    𝒫 # problem with unknown reward
    bc # Behavioral cloning struct
    k_max # number of iterations
    m # number of rollouts per iteration
    d # rollout depth
    b # initial state distribution
    β # mixing s
下载前可以先看下教程 https://pan.quark.cn/s/16a53f4bd595 小天才电话手表刷机教程 — 基础篇 我们将为您简单的介绍小天才电话手表新机型的简单刷机以及玩法,如adb工具的使用,magisk的刷入等等。 我们会确保您看完此教程后能够对Android系统有一个最基本的认识,以及能够成功通过magisk root您的手表,并安装您需要的第三方软件。 ADB Android Debug Bridge,简称,在android developer的adb文档中是这么描述它的: 是一种多功能命令行工具,可让您与设备进行通信。 该命令有助于各种设备操作,例如安装和调试应用程序。 提供对 Unix shell 的访问,您可以使用它在设备上运行各种命令。 它是一个客户端-服务器程序。 这听起来有些难以理解,因为您也没有必要去理解它,如果您对本文中的任何关键名词产生疑惑或兴趣,您都可以在搜索引擎中去搜索它,当然,我们会对其进行简单的解释:是一款在命令行中运行的,用于对Android设备进行调试的工具,并拥有比一般用户以及程序更高的权限,所以,我们可以使用它对Android设备进行最基本的调试操作。 而在小天才电话手表上启用它,您只需要这么做: - 打开拨号盘; - 输入; - 点按打开adb调试选项。 其次是电脑上的Android SDK Platform-Tools的安装,此工具是 Android SDK 的组件。 它包括与 Android 平台交互的工具,主要由和构成,如果您接触过Android开发,必然会使用到它,因为它包含在Android Studio等IDE中,当然,您可以独立下载,在下方选择对应的版本即可: - Download SDK Platform...
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值