策略迭代：二维状态网格实现

策略迭代：深入解析二维状态网格应用

最新推荐文章于 2023-09-09 11:17:11 发布

IF奇迹有颜色

最新推荐文章于 2023-09-09 11:17:11 发布

阅读量389

点赞数

CC 4.0 BY-SA版权

分类专栏：强化学习策略迭代

本文链接：https://blog.youkuaiyun.com/qq_41871172/article/details/92725223

本文详细探讨了策略迭代方法在解决二维状态空间问题中的应用。通过实例展示了如何构建并解决一个基于网格的状态转移问题，揭示了动态规划在复杂决策过程中的威力。

#参考：https://www.cnblogs.com/devilmaycry812839668/p/10314049.html
#encoding:UTF-8
#!/usr/bin/env python3

import random

#状态
states=[0,1,2,3,4,5]

#动作
actions=["a", "b"]

# 奖励的折扣因子
gama=0.9

""" 状态值  v_value 
v_value={
"1":0,
"2":0
}"""
v_value={}
for state in states:
    v_value[state]=0


# 动作值 ("1", "a"):0
q_value={}

#状态转移
def p_state_reward(state, action):
    # 输入当前状态，及行为
    # return 跳转概率，下一状态, 奖励
    if state==0:
        if action=="a":
            return (0, 0, 0)
        else:
            return (0, 2, 0)
    if state==1:
        if action=="a":
            return (1/2, 0, 1)
        else:
            return (1/2, 2, 0)
    if state==2:
        if action=="a":
            return (1/2, 1, 0)
        else:
            return (1/2, 3, 0)
    if state==3:
        if action=="a":
            return (1/2, 2, 0)
        else:
            return (1/2, 4, 0)
    if state==4:
        if action=="a":
            return (1/2, 3, 0)
        else:
            return (1/2, 5, 5)