理论回顾
[1]. Bellman方程求解
[2]. 3.12 Value Iteration - Frozen Lake Problem.ipynb
[3]. 强化学习中马尔科夫决策过程和贝尔曼方程
[4]. 强化学习之值迭代求解冰冻湖
''' 策略迭代求解冰冻湖 '''
"""
冰冻湖,其中,S是起始位置 F是可通过的冰冻湖 H是必须小心的洞 G是目标
S F F F
F H F H
F F F H
H F F G
目标是找到从S到G的最佳路径且不会陷入H
"""
import gym
import numpy as np
env = gym.make('FrozenLake-v0')
env.render() # 查看环境
def compute_value_function(policy, gamma=1.0):
# initialize value table with zeros
value_table = np.zeros(env.nS)
# set the threshold
threshold = 1e-10
while True