策略迭代:二维状态网格实现

策略迭代:深入解析二维状态网格应用
本文详细探讨了策略迭代方法在解决二维状态空间问题中的应用。通过实例展示了如何构建并解决一个基于网格的状态转移问题,揭示了动态规划在复杂决策过程中的威力。
#参考:https://www.cnblogs.com/devilmaycry812839668/p/10314049.html
#encoding:UTF-8
#!/usr/bin/env python3

import random

#状态
states=[0,1,2,3,4,5]

#动作
actions=["a", "b"]

# 奖励的折扣因子
gama=0.9

""" 状态值  v_value 
v_value={
"1":0,
"2":0
}"""
v_value={}
for state in states:
    v_value[state]=0


# 动作值 ("1", "a"):0
q_value={}

#状态转移
def p_state_reward(state, action):
    # 输入当前状态,及行为
    # return 跳转概率,下一状态, 奖励
    if state==0:
        if action=="a":
            return (0, 0, 0)
        else:
            return (0, 2, 0)
    if state==1:
        if action=="a":
            return (1/2, 0, 1)
        else:
            return (1/2, 2, 0)
    if state==2:
        if action=="a":
            return (1/2, 1, 0)
        else:
            return (1/2, 3, 0)
    if state==3:
        if action=="a":
            return (1/2, 2, 0)
        else:
            return (1/2, 4, 0)
    if state==4:
        if action=="a":
            return (1/2, 3, 0)
        else:
            return (1/2, 5, 5)
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值