45、强化学习中的蒙特卡罗学习、时间差分学习与资格迹机制

强化学习中的蒙特卡罗学习、时间差分学习与资格迹机制

1. 异步算法与蒙特卡罗学习概述

在解决马尔可夫决策过程(MDP)时,异步算法使得计算与实时交互的结合更加容易。可以在智能体实际体验MDP的同时运行迭代动态规划算法,智能体的经验可用于确定动态规划算法进行回溯的状态,同时动态规划算法的最新价值和策略信息能指导智能体的决策。例如,当智能体访问某个状态时进行回溯,可使动态规划算法的回溯集中在与智能体最相关的状态集部分。

无模型强化学习指的是模型中存在不确定元素,智能体仅知道环境中的状态和来自环境的奖励,而不清楚确切的转移概率和奖励函数。无模型方法在每个时刻形成状态、动作和奖励的样本序列,即经验。这个样本序列可以是智能体与环境交互的真实经验,也可以是通过某种方法获得的模拟经验。从真实经验中学习很重要,因为它能基于真实样本序列做出最佳动作决策;从模拟经验中学习也有用,因为它能基于模拟样本序列推断出最佳动作。

蒙特卡罗(MC)学习是一种无模型方法,具体指基于样本回报求平均的方法,也称为无偏估计。蒙特卡罗方法通过重复随机抽样,用事件发生的频率来估计随机事件的概率或随机变量的期望值,并将其作为近似数值结果。使用蒙特卡罗学习的强化学习限于 episodic 任务,即其经验可分为多个情节,无论选择何种动作,所有情节最终都会终止。只有在一个情节完成后,价值评估和策略才会改变,因此蒙特卡罗学习可以基于单个情节持续学习,而非基于单个步骤学习。一个在时间 $ {0, 1, \ldots, T } $ 的情节是一个由状态、动作和奖励组成的序列:$ {s_0, a_0, r_1, s_1, a_1, r_2, \ldots, s_T, a_T, r_{T + 1} } $。

2. 蒙特卡
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值