【强化学习】—— Q-learning算法

原创已于 2024-10-25 14:37:03 修改 · 1.5k 阅读

·

17

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #深度学习 #神经网络

于 2024-10-23 16:56:22 首次发布

强化学习专栏收录该内容

1 篇文章

订阅专栏

Q-Learning算法

Q-learning 是一种无模型的强化学习算法，用于寻找最优策略以最大化累积奖励。它通过学习一个状态-动作值函数 $Q (s, a)$ ，该函数表示在状态 ( s ) 下执行动作 ( a ) 的预期收益。

1.Q-learning 的基本概念

状态（State）: 环境的当前状态。
动作（Action）: 代理在当前状态下可以采取的动作。
奖励（Reward）: 执行动作后获得的反馈，通常是一个数值。
学习率（Learning Rate, $α$ ）: 控制新获得的信息与旧信息的权重。
折扣因子（Discount Factor, $γ$ ）: 权衡当前奖励和未来奖励的影响。

2.Q-learning 更新公式

Q-learning 的更新公式为：

$Q(s,a)\leftarrow Q(s,a)+\alpha\left[r+\gamma\max_{a^{\prime}}Q(s^{\prime},a^{\prime})-Q(s,a)\right]$

其中：

$s^{'}$ 是执行动作 $a$ 后的新状态。
$r$ 是在状态 $s$ 执行动作 $a$ 时获得的奖励。
$max_{a'} Q(s', a')$ 是在新状态 $s^{'}$ 下的最大 $Q$ 值。

3.训练过程

初始化: 将 $Q$ 值表初始化为任意值（通常为0）。
探索与利用: 在训练过程中，代理根据当前 $Q$ 值选择动作，通常采用 $ε - g ree d y$ 策略，即以 $ε$ 的概率随机选择动作（探索），以 $\epsilon$ 的概率选择当前 $Q$ 值最大的动作（利用）。
更新 $Q$ 值: 根据上面的更新公式更新 $Q$ 值。
重复: 不断执行步骤 2 和 3，直到收敛或达到预设的训练轮数。

4.优势与挑战

优势: Q-learning 能够在没有环境模型的情况下进行学习，适用于多种问题。
挑战: 在状态和动作空间较大时， $Q$ 值表会变得庞大，导致存储和计算成本高。可以使用深度 $Q$ 网络（DQN）来处理大规模问题。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

花间相见 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。