48、强化学习中的成本信号操纵与安全问题

强化学习中的成本信号操纵与安全问题

1. Q - 学习算法基础

Q - 学习是一种用于更新与最优策略相关的 Q 因子估计的方法。在没有系统和成本结构的显式模型时,它是一种高效的计算方法。

  • Q 因子定义 :状态 - 控制对 $(i, u)$ 的 Q 因子定义为:
    [Q(i, u) = \sum_{j = 0}^{n} p_{ij}(u)(g(i, u, j) + \alpha J(j))]
    最优 Q 因子 $Q^ (i, u)$ 则是将上式中的 $J(j)$ 替换为 $J^ (j)$ 得到:
    [Q^ (i, u) = \sum_{j = 0}^{n} p_{ij}(u) \left( g(i, u, j) + \alpha \min_{v \in U(j)} Q^ (j, v) \right)]
  • Q - 学习更新规则 :Q - 学习基于样本计算最优 Q 因子,其更新公式为:
    [Q_{t + 1}(i, u) = (1 - \gamma_t) Q_t(i, u) + \gamma_t \left( g(i, u, \bar{\zeta}) + \alpha \min_{v \in U(\bar{\zeta})} Q_t(\bar{\zeta}, v) \right)]
    其中,后继状态 $\bar{\zeta}$ 和 $g(i, u, \bar{\zeta})$ 是根据转移概率 $p_{i\bar{\zeta}}(u)$ 通过模拟或实验生成的。当步长 $\gamma_t$ 满足 $\sum_{t =
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值