Value-based learning（价值学习）入门（使用DQN）

最新推荐文章于 2024-09-06 14:48:04 发布

原创

最新推荐文章于 2024-09-06 14:48:04 发布 · 994 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #神经网络 #机器学习 #强化学习

以下内容总结自B站：深度强化学习(Deep Reinforcement Learning)_哔哩哔哩_bilibili

一、概述：

Value-based learning（价值学习）：使用神经网络Deep Q network（DQN）来近似学习 $Q^*(s,a)$ ；使用时间差分（TD：temporal different）算法来训练DQN，即学习神经网络的参数。

二、概念回顾：

1、基于策略 $\pi$ 的动作价值函数（Action-value function）：

$Q_{\pi}(s_t,a_t) = \mathbb{E}[U_t|S_t = s_t, A_t = a_t]$ ，表示 $t$ 时刻状态 $s_t$ 下做动作之后能获得的回报的期望。

$U_t = R_t + \gamma \cdot R_{t+1} + \gamma ^2 \cdot R_{t+2} + \gamma ^3 \cdot R_{t+3} + \gamma ^4 \cdot R_{t+4} + \cdots$

$U_t$ 是回报（Return）：表示t时刻开始未来执行一组动作后能够获得的奖励之和。 $U_t = R_t + \gamma R_{t+1} + \gamma ^2R_{t+2} + \gamma ^3R_{t+3} + \cdots$
$R_i$ 是即时奖励，与状态 $S_i$ 和动作 $A_i$ 相关； $\gamma$ 是折扣因子，取[0,1]之间。未来的奖励不确定，所以需要在未来奖励上打个折扣。
动作价值函数 $Q_\pi(s_t, a_t)$ 的现实意义：如果用策略 $\pi$ ，我们能知道在状态 $s_t$ 下做动作 $a_t$ 是否明智，即 $Q_\pi(s_t, a_t)$ 会对动作空间中的每一个动作 $a_t$ 打分。如果有了 $Q_\pi(s_t, a_t)$ ，Agent就能根据 $Q_\pi(s_t, a_t)$ 对动作的评价做决策，选择得分最高的动作。
用不同的策略 $\pi$ 函数，会得到不同的 $Q_\pi(s_t, a_t)$ 。
下面尝试把 $Q_\pi(s_t, a_t)$ 中的 $\pi$ 去掉：对 $Q_\pi(s_t, a_t)$ 求关于 $\pi$ 的最

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。