机器学习中的偏好学习与多类别不确定标注学习
一、偏好学习相关方法
1.1 不同策略的特点
在机器学习的策略中,不同的方法有着各自的特点。例如,有一种策略的策略更新较为可靠,但它未充分利用轨迹的中间状态信息,导致训练数据较少。并且,它采用非表格状态表示,能将策略推广到未见过的状态,通过多层感知器来实现这一特性,不过由于这些特性以及一些细节信息的缺失,难以进行直接比较。
另一种Akrour等人的方法,假定轨迹已由底层机器人代理访问的传感 - 运动状态(sms)定义,利用偏好确定这些sms的预期权重,进而计算策略的近似值。该方法需要可参数化的策略,借助进化策略和策略值创建新策略。同时,他们还致力于减少所需的偏好反馈量,因为他们考虑的问题难以模拟,需要人工评估,这将偏好学习与主动学习相结合。
Wilson等人的方法同样利用可参数化策略,但在策略空间中使用贝叶斯框架直接进行优化,且使用的偏好仅涉及短轨迹片段,而非完整轨迹。
1.2 与逆强化学习的对比
偏好学习与逆强化学习相关,但存在显著差异。逆强化学习假设存在完美行为的演示,需要进行模仿;而偏好学习仅需要关于解决方案相对关系的信息,对提供反馈的专家要求较低。
1.3 偏好学习的效果
偏好学习的结果表明,基于偏好的强化学习可提供与SARSA相当的性能,且反馈结构更简单,超参数数量更少,大大减少了调优设置所需的工作量。同时,每次迭代不需要大量偏好,K = 4(每次迭代6个偏好)和K = 10(每次迭代20个偏好)之间的差异极小,只有低于这些值(K = 2)才会显著降低收敛速度。
下面用表格总结不同方法的特点: <
偏好学习与多类别不确定标注学习
超级会员免费看
订阅专栏 解锁全文
56

被折叠的 条评论
为什么被折叠?



