54、机器学习中的偏好学习与多类别不确定标注学习

偏好学习与多类别不确定标注学习

机器学习中的偏好学习与多类别不确定标注学习

一、偏好学习相关方法

1.1 不同策略的特点

在机器学习的策略中,不同的方法有着各自的特点。例如,有一种策略的策略更新较为可靠,但它未充分利用轨迹的中间状态信息,导致训练数据较少。并且,它采用非表格状态表示,能将策略推广到未见过的状态,通过多层感知器来实现这一特性,不过由于这些特性以及一些细节信息的缺失,难以进行直接比较。

另一种Akrour等人的方法,假定轨迹已由底层机器人代理访问的传感 - 运动状态(sms)定义,利用偏好确定这些sms的预期权重,进而计算策略的近似值。该方法需要可参数化的策略,借助进化策略和策略值创建新策略。同时,他们还致力于减少所需的偏好反馈量,因为他们考虑的问题难以模拟,需要人工评估,这将偏好学习与主动学习相结合。

Wilson等人的方法同样利用可参数化策略,但在策略空间中使用贝叶斯框架直接进行优化,且使用的偏好仅涉及短轨迹片段,而非完整轨迹。

1.2 与逆强化学习的对比

偏好学习与逆强化学习相关,但存在显著差异。逆强化学习假设存在完美行为的演示,需要进行模仿;而偏好学习仅需要关于解决方案相对关系的信息,对提供反馈的专家要求较低。

1.3 偏好学习的效果

偏好学习的结果表明,基于偏好的强化学习可提供与SARSA相当的性能,且反馈结构更简单,超参数数量更少,大大减少了调优设置所需的工作量。同时,每次迭代不需要大量偏好,K = 4(每次迭代6个偏好)和K = 10(每次迭代20个偏好)之间的差异极小,只有低于这些值(K = 2)才会显著降低收敛速度。

下面用表格总结不同方法的特点: <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值