策略迭代:二维状态网格实现
#参考:https://www.cnblogs.com/devilmaycry812839668/p/10314049.html
#encoding:UTF-8
#!/usr/bin/env python3
import random
#状态
states=[0,1,2,3,4,5]
#动作
actions=["a", "b"]
# 奖励的折扣因子
gama=0.9
""" 状态值 v...
原创
2019-06-17 22:03:24 ·
374 阅读 ·
0 评论