强化学习探索:贪吃蛇游戏案例研究
1. Q - Learning的不可预测性
Q - Learning存在不可预测的问题,在训练过程中,使用相同的超参数和奖励重新训练算法,有时会产生不同的结果。这是因为算法的探索组件会使用随机动作,通过试错学习直到进行开发的过程有一定的运气成分,智能体可能会比较幸运地更快找到更多食物,从而学习得更快。
2. SARSA算法
2.1 概念
SARSA和Q - Learning类似,都利用马尔可夫决策过程来寻找最优动作,在环境中不断迭代。但与Q - Learning不同,SARSA是一种在线策略算法,下一个动作由特定策略决定,即当前正在执行的动作。它可以根据当前策略,给定一个状态及其相关动作来估计未来奖励。
SARSA是“状态、动作、奖励、状态、动作”的缩写,第一个状态和动作是当前正在执行的,奖励是观察到的奖励,接下来的状态和动作是下一个状态以及通过贪心策略得到的动作。贪心策略和Q - Learning中一样,用于平衡探索和开发。SARSA也使用学习率和折扣因子,分别用于加快学习速度和更重视当前奖励。
在处理大的负奖励情况时,SARSA表现更好,因为它能学会避免这些负面动作,更高效地学习策略。因此,在可能出现潜在危害、需要尽量避免负面结果且需要快速学习策略的情况下,SARSA比Q - Learning更合适。
2.2 实现方法
- 初始化Q值 :在启动时,需要初始化所有必要的Q值。环境中每个可能的状态 - 动作对都必须有一个Q值,并且每个值都是任意初始化的。与Q - Learning在游戏进行
超级会员免费看
订阅专栏 解锁全文
1842

被折叠的 条评论
为什么被折叠?



