强化学习算法:SARSA与深度Q网络(DQN)解析
1. SARSA算法
SARSA(State - Action - Reward - State - Action)是一种基于值的时序差分(TD)算法,用于学习最优策略。
1.1 学习率对SARSA性能的影响
学习率对SARSA的学习速度有着显著影响。只要学习率不是过高,提高学习率会使智能体学习得更快。例如在CartPole任务中,在试验5和6里,较高的学习率让SARSA能迅速获得200的最大总奖励;而在试验0、1、2中,低学习率导致智能体学习过慢。
1.2 SARSA的主要元素
- Q函数学习 :使用TD学习来近似Q函数,TD学习旨在最小化基于贝尔曼方程的两种Q函数公式之间的差异。其关键思想在于,在强化学习问题中,奖励是随时间逐步揭示的,TD学习利用这一点,将未来时间步的信息反馈到Q函数估计的早期步骤中。
- 动作选择方法 :基于Q值估计采用ε - 贪心策略。智能体以概率ε随机行动,否则选择对应最大Q值估计的动作。这种策略是解决强化学习中探索 - 利用问题的简单方法,智能体需要在利用已知信息和探索环境以发现更好解决方案之间取得平衡。
1.3 SARSA的实现组件
- 动作函数 :用于计算Q值和相关损失。
- 训练循环 :通过epsilon_greedy、calc_q_loss和train方法实现。 <
超级会员免费看
订阅专栏 解锁全文
740

被折叠的 条评论
为什么被折叠?



