有模型学习-优快云博客

本文链接：https://blog.youkuaiyun.com/MJ985464/article/details/144477858

第1关：策略评估

import numpy as np

# 定义一个简单的环境类
class Environment:
    def __init__(self):
        self.num_states = 3
        self.num_actions = 2
        self.transition_matrix = np.array([
            [[0.6, 0.2, 0.2], [0.2, 0.6, 0.2], [0.4, 0.4, 0.2]],  # 状态0对应的两个动作的转移概率
            [[0.3, 0.3, 0.4], [0.4, 0.3, 0.3], [0.9, 0.05, 0.05]],  # 状态1对应的两个动作的转移概率
            [[0.1, 0.3, 0.6], [0.5, 0.2, 0.3], [0.1, 0.4, 0.5]]   # 状态2对应的两个动作的转移概率
        ])
        self.reward_matrix = np.array([
            [1, -1, 0],  # 状态0对应的两个动作的奖励
            [-1, 1, 0],  # 状态1对应的两个动作的奖励
            [0, 0, 1]    # 状态2对应的两个动作的奖励
        ])

    def step(self, state, action):
        next_state = np.random.choice(range(self.num_states), p=self.transition_matrix[state][action])
        reward = self.reward_matrix[state][action]
        return next_state, reward

# 请在下面的 Begin-End 之间按照注释中给出的提示编写正确的代码
########## Begin ##########

# 策略评估算法
def policy_evaluation(env, policy, gamma, theta, max_iterations):

    # 第一步：初始化状态价值函数
    V = np.zeros(env.num_states)


    for i in range(max_iterations):

        # 第二步：初始化delta，该变量用来衡量状态价值函数的变化程度
        delta = 0


        for s in range(env.num_states):

            # 第三步：记录上一轮迭代时的状态价值函数V[s]的值
            v = V[s]


            # 第四步：初始化value为0，用来计算当前状态的价值函数
            value = 0


            for a in range(env.num_actions):
                for s_next in range(env.num_states):

                    # 第五步：获取从状态s执行动作a转移到状态s_next的转移概率
                    p = env.transition_matrix[s][a][s_next]


                    # 第六步：获取在状态s执行动作a后的奖励值
                    r = env.reward_matrix[s][a]


                    # 第七步：根据策略policy、转移概率、奖励和折扣因子计算期望回报值，并累加到value中
                    value += policy[s][a] * p * (r + gamma * V[s_next])


            V[s] = value  # 更新状态价值函数

            # 第八步：计算当前状态价值函数V[s]与上一轮迭代的状态价值函数V[s]之间的差异，并将其与delta比较，取较大值作为新的delta
            delta = max(delta, np.abs(v - V[s]))


        # 如果delta小于阈值theta，则跳出循环，结束迭代
        if delta < theta:
            break
    return V

########## End ##########

# 创建一个环境实例
env = Environment()

# 初始化策略
policy = np.ones((env.num_states, env.num_actions)) / env.num_actions

# 策略评估
gamma = 0.9  # 折扣因子
theta = 1e-8  # 阈值
max_iterations = 1000  # 最大迭代次数
V = policy_evaluation(env, policy, gamma, theta, max_iterations)