59、强化学习中的Q学习及深度Q学习算法详解

github5actions

于 2025-10-31 14:07:37 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战精要文章标签： Q学习深度Q学习强化学习

本文链接：https://blog.youkuaiyun.com/github5actions/article/details/154856663

机器学习实战精要专栏收录该内容

74 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习中的Q学习及深度Q学习算法详解

1. Q值迭代与最优策略

在强化学习中，我们常常需要计算Q值来确定最优策略。首先，我们设定折扣因子 gamma = 0.90 ，通过以下代码进行Q值迭代：

gamma = 0.90  # the discount factor 
for iteration in range(50): 
    Q_prev = Q_values.copy() 
    for s in range(3): 
        for a in possible_actions[s]: 
            Q_values[s, a] = np.sum([ 
                    transition_probabilities[s][a][sp] 
                    * (rewards[s][a][sp] + gamma * np.max(Q_prev[sp])) 
                for sp in range(3)])

迭代完成后，得到的Q值如下：

>>> Q_values
array([[18.91891892, 17.02702702, 13.62162162],
       [ 0.        ,        -inf, -4.87971488],
       [       -inf, 50.13365013,        -inf]])