Reinforcement learning: integrating learning and planning, exploitation and exploration

介绍

越看到后面,我越发觉得RL更像是一种思想,Policy,State都需要自己进行定义,计算value function的过程也有公式,但是不如深度学习那么直接。

之前的章节是说到如何从经验中得到policy和value function,这一节是如何从经验中获取模型。然后使用模型加经验来更新policy和value function。model-based RL没有对environment进行建模,直接通过经验得到value function或者是policy。Model-based method会对环境进行建模。reward和state就可以通过这个模型推断出来。

基于模型的RL

这里写图片描述

基于模型的RL可以通过监督学习学习模型,然后对模型的未知可以进行推测。但是缺点在于模型和value function都变成了近似计算,这很可能会增加error。

模型M就是MDP

整体框架

experience有两个来源:真实的experience和simulated experience。Model-based RL是先从real experience学到模型,再从simulated experience中获得value function(policy)

然后Dyna的value function(policy)是从simulated experience中获得。
这里写图片描述

Dyna-Q Learning 算法:
这里写图片描述

基于仿真的搜索

根据模型仿真episodes,然后再使用Model-Free RL去simulate episodes。

TD search,每次通过Sarsa来更新delta Q:
这里写图片描述

Exploration and Exploitation

exploitation: 找到针对当前信息最好的决策
exploration: 获取更多信息,去探索有可能的新的决策

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值