强化学习算法的实现与神经网络基础
1. 价值迭代代码测试
在实现算法后,需要对代码进行测试。可以使用规划算法结合 GridWorld 进行测试,以下是一个示例代码,用于创建 GridWorld、进行规划、评估单一策略并可视化结果:
public static void main(String [] args){
GridWorldDomain gridDomain = new GridWorldDomain(11, 11);
gridDomain.setTf(new GridWorldTerminalFunction(10, 10));
gridDomain.setMapToFourRooms();
// 80% 的概率朝预期方向移动
gridDomain.setProbSucceedTransitionDynamics(0.8);
SADomain domain_sa = gridDomain.generateDomain();
// 初始化智能体到初始状态 (0, 0)
State st = new GridWorldState(new GridAgent(0, 0));
// 设置价值迭代,折扣因子为 0.99,初始值函数将所有状态初始化为 0,在状态空间上运行 30 次迭代
ValueIterationTutorial valueIteration = new
ValueIterationTutorial(domain_sa, 0.99, new SimpleHashableStateFactory(), new ConstantValueFu
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



