马尔可夫决策过程与动态规划:从冰湖到掷硬币赌博问题
在强化学习领域,马尔可夫决策过程(MDP)是一个核心概念,而动态规划则是解决MDP问题的重要方法。本文将深入探讨两种解决MDP问题的算法:值迭代和策略迭代,并通过冰湖环境和掷硬币赌博问题来展示它们的应用和性能。
1. 值迭代算法在冰湖环境中的应用
在冰湖环境中,我们的目标是让智能体找到一条最优路径到达目标。首先,我们需要计算最优策略。具体步骤如下:
1. 计算最优策略 :
optimal_policy = extract_optimal_policy(env, V_optimal, gamma)
print('Optimal policy:\n{}'.format(optimal_policy))
输出的最优策略如下:
Optimal policy:
tensor([0., 3., 3., 3., 0., 3., 2., 3., 3., 1., 0., 3., 3., 2., 1., 3.])
- 评估最优策略 :为了评估这个最优策略的性能,我们运行1000个回合,并计算平均奖励。
n_episode = 1000
total_rewards = []
for episode in range(n_episode):
total_reward
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



