基于深度神经网络策略的带纠正反馈的交互式学习
1. Deep COACH 方法概述
在一些基于深度神经网络(DNN)的策略学习场景中,COACH 方法允许人类教师对智能体执行的动作给出纠正信号。当智能体执行的动作被人类认为是错误的,教师会指出动作应纠正的方向(增加或减少),因此 COACH 适用于连续动作问题。
每个动作维度都有一个对应的纠正信号 h,其值为 0、 -1 或 1,会产生一个任意大小的误差信号 e,用于以监督方式直接塑造策略,即 error = h·e。其中,h = 0 表示无需纠正,h = ±1 表示建议纠正的方向。
在这个框架中,针对不同维度的状态问题使用了两种神经网络架构:
- 对于低维状态问题,使用前馈全连接神经网络(FNN)。
- 对于高维状态问题,如原始图像状态空间,使用卷积神经网络(CNN)。
两种情况下,策略会在每次收到反馈时更新,并且每隔 b 个时间步从记忆缓冲区 B 中采样进行更新。每次用户给出纠正时,缓冲区 B 会存入当前状态和通过动作加上误差修正生成的标签 ylabel = a + error。对于 CNN 架构,卷积层会在交互式学习过程之前进行离线训练,以学习状态的低维表示,状态会嵌入到通过智能体探索环境的数据库训练的自编码器的潜在空间中。
另外,原始的 COACH 提出每个维度应独立训练,这种策略更新方式称为解耦训练,即特定动作维度的纠正不会改变同一对应状态下其他轴上动作的大小。但在某些问题中,利用用户关于动作不同维度之间关系的先验知识可能更有利,这种情况下一个动作轴的纠正可用于更新多个维度,称为耦合训练。
超级会员免费看
订阅专栏 解锁全文
706

被折叠的 条评论
为什么被折叠?



