6、马尔可夫决策过程与动态规划：从冰湖到掷硬币赌博问题

Light

于 2025-10-26 12:03:23 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏： PyTorch强化学习实战文章标签：马尔可夫决策过程动态规划值迭代

本文链接：https://blog.youkuaiyun.com/Light/article/details/154633230

21 篇文章 ¥499.90

订阅专栏¥69.90

在强化学习领域，马尔可夫决策过程（MDP）是一个核心概念，而动态规划则是解决MDP问题的重要方法。本文将深入探讨两种解决MDP问题的算法：值迭代和策略迭代，并通过冰湖环境和掷硬币赌博问题来展示它们的应用和性能。

在冰湖环境中，我们的目标是让智能体找到一条最优路径到达目标。首先，我们需要计算最优策略。具体步骤如下：
1. 计算最优策略 ：

optimal_policy = extract_optimal_policy(env, V_optimal, gamma)
print('Optimal policy:\n{}'.format(optimal_policy))

输出的最优策略如下：

Optimal policy:
tensor([0., 3., 3., 3., 0., 3., 2., 3., 3., 1., 0., 3., 3., 2., 1., 3.])

n_episode = 1000
total_rewards = []
for episode in range(n_episode):
    total_reward