Reinforcement Learning from Simultaneous Human and MDP Reward个人理解

同步TAMER+RL算法
本文探讨了TAMER+RL算法的改进,提出了同步TAMER+RL,允许训练者在学习过程中的任意时刻介入,提高了算法的灵活性和效率。通过引入资格迹和资格模块,调整了人类反馈对学习的影响,使算法能在多任务环境中表现更佳。

1.介绍
TAMER+RL的含义:TAMER+RL用于改善传统的RL算法,它是一种能从MDP 和人类反馈中学习的方法。
当下论文的不足:以前的TAMER+RL只能测试一个单个的域,且从人的反馈中学习必须先于RL,就是我们所说的顺序TAMER+RL。
改善方法:

  • 测试:前一个TAMER+RL任务和新的任务。
  • 检查:提供一种多需求的检查方式,检查在一定参数值的技术表现。
  • 引入一种心得算法:基于之前的TAMER+RL的工作,但是从人和MDP中同时学习

2.预备知识

  • RL
    本篇论文中我们采用基于RL算法的值函数法—SARSA(入)。原因是他比较保险稳妥。
  • TAMER 框架
    TAMER框架是一种解决方法,关于代理人如何从人训练给的数字映射中学习。效仿行为值(Q—value)我们用人返回值函数H表示:H:SXA,H是一个真实的回归。每个人的反馈信号为最新的状态值对创造一个标签。其中贪婪行为的选择为:
    在这里插入图片描述

3.顺序TAMER+RL
TAMER比MDP 学习的要快,而Sarsa能从长远角度帮你选择一个更好的策略。模型H一定程度上影响后面的RL算法,所以称为顺序TAMER+RL。

实验

  • 在先前被测的数据中重新产生结果
  • 在不同的任务中估计算法的有效性
  • 分析数据,在一个大范围的集合参数中去分析在没有先前数据的情况下设置参数值的困难。

这两种结合的方法只影响行为选择—行为偏置和控制共享—两者之间没有清晰的主导,并且他们是在Q增加和反馈之后。
反馈之所以这么弱是因为人的反馈被间接的用于指导探索,而行为偏置和控制共享被直接的用于探索,没有人为操控
Q增强和行为选择时的偏差一样,通过对人类奖励的加权预测增加每个行为的Q值,Q增强来改变Q值还可以通过sarsa更新的TD error。

4.同步TAMER+RL
在顺序TAMER+RL的基础上,允许训练者根据需要介入整个过程中的RL的过程,我们称这种情况和解决他的算法为同步TAMER+RL。

当沿着学习曲线训练时应该对代理人有利,我们会在代理人达到最佳状态并且训练者的反馈没有帮助的时候,我们要对这个学习进行削弱。

同步TAMER+RL的理想特征

  • 稳定的行为:若代理人行为不稳定,反馈的没有什么质量

  • 训练者的快速响应:代理人可以快速的证明她正在从人类的奖励中学习保持交互,过程更高效。

  • 训练者能对MDP策略提供反馈:训练者中途捕捉学到好的方面,批评坏的方面。

  • 训练者的影响被适当的应用:H对RL算法学习的影响或行为选择在状态行为空间最近的训练区域应该更大,在最近训练较少的区域更小。

    同步TAMER+RL允许训练者在学习过程的任何时刻插入自己。H的影响应该在状态行动的空间中增加,但不是在反馈区域中,在没有训练的情况下应该减少。那如何确定H的影响?
    通过对强化学习中经常使用的资格迹来确定H的影响。(我们为每个状态—行为特征维护一个资格跟踪,规范化在0~1之间,表示该特征处在活动状态时训练的新近度,资格迹和一个时间步长的特征向量一起计算相似特征向量中的训练新近度)
    公式讲解:略

资格迹合资格模块的区别:
资格模块和资格迹一样维护一条迹线矢量
但是,与资格迹不同,资格模块只增加训练处的痕迹。我们使用跟踪来确定每个要素的相应Q值参数的更新程度,然后使用它们输出一个粗略指示近期状态近期训练的度量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值