第1关:策略评估
import numpy as np
# 定义一个简单的环境类
class Environment:
def __init__(self):
self.num_states = 3
self.num_actions = 2
self.transition_matrix = np.array([
[[0.6, 0.2, 0.2], [0.2, 0.6, 0.2], [0.4, 0.4, 0.2]], # 状态0对应的两个动作的转移概率
[[0.3, 0.3, 0.4], [0.4, 0.3, 0.3], [0.9, 0.05, 0.05]], # 状态1对应的两个动作的转移概率
[[0.1, 0.3, 0.6], [0.5, 0.2, 0.3], [0.1, 0.4, 0.5]] # 状态2对应的两个动作的转移概率
])
self.reward_matrix = np.array([
[1, -1, 0], # 状态0对应的两个动作的奖励
[-1, 1, 0], # 状态1对应的两个动作的奖励
[0, 0, 1] # 状态2对应的两个动作的奖励
])
def step(self, state, action):
next_state = np.random.choice(range(self.num_states), p=self.transition_matrix[state][action])
reward = self.reward_matrix[state][action]
return next_state, reward
# 请在下面的 Begin-End 之间按照注释中给出的提示编写正确的代码
########## Begin ##########
# 策略评估算法
def policy_evaluation(env, policy, gamma, theta, max_iterations):
# 第一步:初始化状态价值函数
V = np.zeros(env.num_states)
for i in range(max_iterations):
# 第二步:初始化delta,该变量用来衡量状态价值函数的变化程度
delta = 0
for s in range(env.num_states):
# 第三步:记录上一轮迭代时的状态价值函数V[s]的值
v = V[s]
# 第四步:初始化value为0,用来计算当前状态的价值函数
value = 0
for a in range(env.num_actions):
for s_next in range(env.num_states):
# 第五步:获取从状态s执行动作a转移到状态s_next的转移概率
p = env.transition_matrix[s][a][s_next]
# 第六步:获取在状态s执行动作a后的奖励值
r = env.reward_matrix[s][a]
# 第七步:根据策略policy、转移概率、奖励和折扣因子计算期望回报值,并累加到value中
value += policy[s][a] * p * (r + gamma * V[s_next])
V[s] = value # 更新状态价值函数
# 第八步:计算当前状态价值函数V[s]与上一轮迭代的状态价值函数V[s]之间的差异,并将其与delta比较,取较大值作为新的delta
delta = max(delta, np.abs(v - V[s]))
# 如果delta小于阈值theta,则跳出循环,结束迭代
if delta < theta:
break
return V
########## End ##########
# 创建一个环境实例
env = Environment()
# 初始化策略
policy = np.ones((env.num_states, env.num_actions)) / env.num_actions
# 策略评估
gamma = 0.9 # 折扣因子
theta = 1e-8 # 阈值
max_iterations = 1000 # 最大迭代次数
V = policy_evaluation(env, policy, gamma, theta, max_iterations)