51、基于对象上下文的 θ - 包含关系研究

a1b2c

于 2025-10-22 13:51:50 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：逻辑与学习的交汇文章标签： θ-包含关系 LIFT-UP算法对象上下文

本文链接：https://blog.youkuaiyun.com/a1b2c/article/details/153953336

逻辑与学习的交汇专栏收录该内容

56 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于对象上下文的 θ - 包含关系研究

1. LIFT - UP 算法概述

LIFT - UP 算法在满足特定条件时会收敛到一个 ε - 最优策略。其具体实现过程涉及多个关键步骤，包括策略扩展、价值迭代等。

在 LIFT - UP 算法中，残差 r 是当前值函数 V′和新计算的值函数 V 之间最大差值的绝对值，且新计算的值函数 V 需经过归一化处理。提取最佳部分策略 π 只需从最佳部分值函数 V 中提取最大化动作。

LIFT - UP 收敛到 ε - 最优策略需满足三个条件：
1. 当前策略没有未扩展的状态。
2. 残差 r 小于预定义的阈值 ε。
3. 值函数用可接受的启发式函数初始化。

为了得到可接受的启发式函数 h，会执行多次原始的一阶值迭代（FOVI）。初始值函数会为每个状态分配目标奖励，由于目标奖励是最大可能奖励，这会高估最优值。

以下是 LIFT - UP 算法的伪代码：

policyExpansion(π, S0, G)
    E := F := ∅ and from := S0
    repeat
        to := ⋃Z∈from ⋃aj ∈Ch(a) {succ(Z, aj, θ)},
            where (a, θ) := π(Z)
        F := F ∪ (to − G) and E := E ∪ from
        from := to ∩ G − E
    until (from = ∅)
    E := E ∪ F and G := G ∪ F
    r