53、基于偏好反馈学习的策略迭代算法

基于偏好反馈学习的策略迭代算法

1 引言

强化学习的常见方法依赖数值奖励形式的反馈,这种反馈信息丰富,能简化学习过程,但往往难以定义。例如在癌症治疗领域,需为患者死亡等结果赋予任意的负奖励值。即便对于经典的基准问题,如倒立摆或山地车问题,强化信号的建模也有多种选择,不同选择会导致不同的结果和收敛速度,且会与状态特征定义、可参数化策略以及学习算法的参数化相互作用。

偏好学习领域的发展提供了一种直观的反馈形式,无需数值。在强化学习中,基于偏好的反馈信号可建模为轨迹的成对比较,非专家用户也能提供这种反馈。本文提出一种策略迭代算法,可从基于偏好的反馈中学习,并在山地车、倒立摆和机械臂三个常见强化学习基准问题上进行评估。

2 问题定义

本文定义了基于偏好的顺序决策过程(PSDP),它与马尔可夫决策过程有许多相似之处,但重要区别在于没有数值奖励信号。

PSDP {S, A, δ, ≻} 由以下部分定义:
- 状态空间 S = {si},i = 1 … |S|。
- 有限动作空间 A = {aj},j = 1 … |A|。
- 随机状态转移函数 δ : S × A × S →[0, 1]。
- 定义在通过该状态空间的轨迹上的偏好关系 ≻。

每个状态 s 关联一组可用动作 A(s),若某状态无可用动作,则为吸收状态,所有吸收状态的集合为 SF = {s ∈S|A(s) = ∅}。随机策略 π 是每个状态中动作的概率分布,即 π : S × A →[0, 1],且满足 $\sum_{a’ \in A(s)} \pi(s, a’) = 1$。

轨迹是一个状态/动作序列 T =

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值