强化学习中的成本信号操纵与安全问题
1. Q - 学习算法基础
Q - 学习是一种用于更新与最优策略相关的 Q 因子估计的方法。在没有系统和成本结构的显式模型时,它是一种高效的计算方法。
- Q 因子定义 :状态 - 控制对 $(i, u)$ 的 Q 因子定义为:
[Q(i, u) = \sum_{j = 0}^{n} p_{ij}(u)(g(i, u, j) + \alpha J(j))]
最优 Q 因子 $Q^ (i, u)$ 则是将上式中的 $J(j)$ 替换为 $J^ (j)$ 得到:
[Q^ (i, u) = \sum_{j = 0}^{n} p_{ij}(u) \left( g(i, u, j) + \alpha \min_{v \in U(j)} Q^ (j, v) \right)] - Q - 学习更新规则 :Q - 学习基于样本计算最优 Q 因子,其更新公式为:
[Q_{t + 1}(i, u) = (1 - \gamma_t) Q_t(i, u) + \gamma_t \left( g(i, u, \bar{\zeta}) + \alpha \min_{v \in U(\bar{\zeta})} Q_t(\bar{\zeta}, v) \right)]
其中,后继状态 $\bar{\zeta}$ 和 $g(i, u, \bar{\zeta})$ 是根据转移概率 $p_{i\bar{\zeta}}(u)$ 通过模拟或实验生成的。当步长 $\gamma_t$ 满足 $\sum_{t =
超级会员免费看
订阅专栏 解锁全文
1237

被折叠的 条评论
为什么被折叠?



