10、强化学习：SARSA 与 DQN 算法解析

脑补型产品

于 2025-10-15 09:33:31 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏：深度强化学习入门指南文章标签： SARSA DQN 强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/mongodb5scout/article/details/154598533

深度强化学习入门指南专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习：SARSA 与 DQN 算法解析

1. SARSA 算法概述

SARSA 算法有两个主要元素：使用时序差分（TD）学习来学习 Q 函数，以及利用 Q 值估计进行动作选择的方法。

学习率对 SARSA 性能的影响 ：学习率对 SARSA 算法的学习曲线有显著影响。当学习率较高时，智能体学习速度更快。例如在 CartPole 环境中，在试验 5 和 6 里，SARSA 能快速获得 200 的最大总奖励。而当学习率较低时，智能体学习速度过慢，如试验 0、1、2 所示。
Q 函数的学习 ：Q 函数是 SARSA 学习的价值函数的良好选择。TD 学习通过最小化基于贝尔曼方程的两种 Q 函数表达式之间的差异来近似 Q 函数。TD 学习的关键思想在于，在强化学习问题中，奖励是随时间逐步揭示的，它利用这一特性将未来时间步的信息回溯到早期的 Q 函数估计中。
动作选择策略 ：学习完 Q 函数后，可以通过 ε - 贪心策略来导出一个良好的策略。即智能体以概率 ε 随机行动，否则选择对应最大 Q 值估计的动作。ε - 贪心策略是解决强化学习中探索 - 利用问题的简单方法，智能体需要在利用已知信息和探索环境以发现更好解决方案之间取得平衡。
SARSA 算法的实现 ：实现 SARSA 算法时，最重要的组件包括动作函数（用于计算 Q 值和相关损失）和训练循环。这些通过 epsilon_greedy

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。