强化学习知识要点与编程实践(2)——动态规划寻找最优策略

0. 前言

本文未经许可禁止转载,如需转载请联系笔者

本章将详细讲解如何利用动态规划算法来解决强化学习中的规划问题。规划问题包含两个方面的内容,一是预测(prediction),二是控制(control),预测问题是给定策略,然后求在这个给定策略下,各个状态的价值;控制问题是不给定策略,只给定必要的环境信息(如奖励和状态转移概率等),然后求解最优策略和此策略下的最优价值函数。

动态规划是指把求解复杂问题分解为求解子问题,通过求解子问题进而得到整个问题的解。它需要求解的问题具有两个性质:一是可分解为一系列子问题,二是子问题具有重复性。

而马尔可夫决策过程恰好具备这两个性质,贝尔曼方程就决定了状态价值的可分性,而状态价值函数就存储了子问题的解,重复子问题直接通过状态价值函数即可求解。

下面来讲述如何求解预测和控制问题。

1. 策略评估

策略评估(policy evaluation)指计算给定策略下状态价值函数的过程。显然这是 预测问题 ,求解这一问题的思路是,首先

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值