基于对象上下文的 θ - 包含关系研究
1. LIFT - UP 算法概述
LIFT - UP 算法在满足特定条件时会收敛到一个 ε - 最优策略。其具体实现过程涉及多个关键步骤,包括策略扩展、价值迭代等。
在 LIFT - UP 算法中,残差 r 是当前值函数 V′和新计算的值函数 V 之间最大差值的绝对值,且新计算的值函数 V 需经过归一化处理。提取最佳部分策略 π 只需从最佳部分值函数 V 中提取最大化动作。
LIFT - UP 收敛到 ε - 最优策略需满足三个条件:
1. 当前策略没有未扩展的状态。
2. 残差 r 小于预定义的阈值 ε。
3. 值函数用可接受的启发式函数初始化。
为了得到可接受的启发式函数 h,会执行多次原始的一阶值迭代(FOVI)。初始值函数会为每个状态分配目标奖励,由于目标奖励是最大可能奖励,这会高估最优值。
以下是 LIFT - UP 算法的伪代码:
policyExpansion(π, S0, G)
E := F := ∅ and from := S0
repeat
to := ⋃Z∈from ⋃aj ∈Ch(a) {succ(Z, aj, θ)},
where (a, θ) := π(Z)
F := F ∪ (to − G) and E := E ∪ from
from := to ∩ G − E
until (from = ∅)
E := E ∪ F and G := G ∪ F
r
超级会员免费看
订阅专栏 解锁全文
1360

被折叠的 条评论
为什么被折叠?



