深度强化学习与生成对抗网络:原理、实践与应用
深度强化学习基础
深度强化学习是一种强大的技术,常用于解决复杂问题。在强化学习中,有几个关键概念需要理解。首先是价值函数 ( V ) 和 ( Q ) 函数。在时间步 ( t ) 时,动作 ( a ) 的价值 ( V ) 与奖励 ( R ) 和折扣率 ( r ) 相关。最优价值函数 ( V^ (s) ) 表示在状态 ( s ) 下能获得最大奖励的值,而最优 ( Q ) 函数 ( Q^ (s,a) ) 表示在状态 ( s ) 下选择动作 ( a ) 能获得的最大期望奖励,且 ( V^ (s) ) 是所有可能动作下最优 ( Q ) 函数 ( Q^ (s,a) ) 的最大值。
强化学习技术可以根据模型的可用性进行分类:
- 模型可用 :当模型可用时,智能体可以通过迭代策略或价值函数进行离线规划,以找到能获得最大奖励的最优策略。这又可分为价值迭代学习和策略迭代学习。
- 价值迭代学习 :智能体首先将 ( V(s) ) 初始化为随机值,然后不断更新 ( V(s) ),直到找到最大奖励。其算法如下:
initialize V(s) to random values for all states
Repeat
for s in states
for a in actions
compute Q[s,a]
V(s) = max(Q[s]) # maximum of Q for all a
超级会员免费看
订阅专栏 解锁全文
2814

被折叠的 条评论
为什么被折叠?



