有模型学习

第1关:策略评估

import numpy as np

# 定义一个简单的环境类
class Environment:
    def __init__(self):
        self.num_states = 3
        self.num_actions = 2
        self.transition_matrix = np.array([
            [[0.6, 0.2, 0.2], [0.2, 0.6, 0.2], [0.4, 0.4, 0.2]],  # 状态0对应的两个动作的转移概率
            [[0.3, 0.3, 0.4], [0.4, 0.3, 0.3], [0.9, 0.05, 0.05]],  # 状态1对应的两个动作的转移概率
            [[0.1, 0.3, 0.6], [0.5, 0.2, 0.3], [0.1, 0.4, 0.5]]   # 状态2对应的两个动作的转移概率
        ])
        self.reward_matrix = np.array([
            [1, -1, 0],  # 状态0对应的两个动作的奖励
            [-1, 1, 0],  # 状态1对应的两个动作的奖励
            [0, 0, 1]    # 状态2对应的两个动作的奖励
        ])

    def step(self, state, action):
        next_state = np.random.choice(range(self.num_states), p=self.transition_matrix[state][action])
        reward = self.reward_matrix[state][action]
        return next_state, reward

# 请在下面的 Begin-End 之间按照注释中给出的提示编写正确的代码
########## Begin ##########

# 策略评估算法
def policy_evaluation(env, policy, gamma, theta, max_iterations):

    # 第一步:初始化状态价值函数
    V = np.zeros(env.num_states)


    for i in range(max_iterations):

        # 第二步:初始化delta,该变量用来衡量状态价值函数的变化程度
        delta = 0


        for s in range(env.num_states):

            # 第三步:记录上一轮迭代时的状态价值函数V[s]的值
            v = V[s]


            # 第四步:初始化value为0,用来计算当前状态的价值函数
            value = 0


            for a in range(env.num_actions):
                for s_next in range(env.num_states):

                    # 第五步:获取从状态s执行动作a转移到状态s_next的转移概率
                    p = env.transition_matrix[s][a][s_next]


                    # 第六步:获取在状态s执行动作a后的奖励值
                    r = env.reward_matrix[s][a]


                    # 第七步:根据策略policy、转移概率、奖励和折扣因子计算期望回报值,并累加到value中
                    value += policy[s][a] * p * (r + gamma * V[s_next])


            V[s] = value  # 更新状态价值函数

            # 第八步:计算当前状态价值函数V[s]与上一轮迭代的状态价值函数V[s]之间的差异,并将其与delta比较,取较大值作为新的delta
            delta = max(delta, np.abs(v - V[s]))


        # 如果delta小于阈值theta,则跳出循环,结束迭代
        if delta < theta:
            break
    return V

########## End ##########

# 创建一个环境实例
env = Environment()

# 初始化策略
policy = np.ones((env.num_states, env.num_actions)) / env.num_actions

# 策略评估
gamma = 0.9  # 折扣因子
theta = 1e-8  # 阈值
max_iterations = 1000  # 最大迭代次数
V = policy_evaluation(env, policy, gamma, theta, max_iterations)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值