强化学习中的Q学习及深度Q学习算法详解
1. Q值迭代与最优策略
在强化学习中,我们常常需要计算Q值来确定最优策略。首先,我们设定折扣因子 gamma = 0.90 ,通过以下代码进行Q值迭代:
gamma = 0.90 # the discount factor
for iteration in range(50):
Q_prev = Q_values.copy()
for s in range(3):
for a in possible_actions[s]:
Q_values[s, a] = np.sum([
transition_probabilities[s][a][sp]
* (rewards[s][a][sp] + gamma * np.max(Q_prev[sp]))
for sp in range(3)])
迭代完成后,得到的Q值如下:
>>> Q_values
array([[18.91891892, 17.02702702, 13.62162162],
[ 0. , -inf, -4.87971488],
[ -inf, 50.13365013, -inf]])
超级会员免费看
订阅专栏 解锁全文
2806

被折叠的 条评论
为什么被折叠?



