强化学习(十七) 基于模型的强化学习与Dyna算法框架

本文介绍了基于模型的强化学习,包括其与非基于模型的区别,重点讲解了Dyna算法框架,包括Dyna-Q和Dyna-2的流程。Dyna算法结合了模型预测和实际交互,通过模拟增强学习效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Based RL),以及基于模型的强化学习算法框架Dyna。

    本篇主要参考了UCL强化学习课程的第8讲和Dyna-2的论文

 1. 基于模型的强化学习简介

    基于价值的强化学习模型和基于策略的强化学习模型都不是基于模型的,它们从价值函数,策略函数中直接去学习,不用学习环境的状态转化概率模型,即在状态ss下采取动作aa,转到下一个状态s′s′的概率Pass′Pss′a。

    而基于模型的强化学习则会尝试从环境的模型去学习,一般是下面两个相互独立的模型:一个是状态转化预测模型,输入当前状态ss和动作aa,预测下一个状态s′s′。另一个是奖励预测模型,输入当前状态ss和动作aa,预测环境的奖励rr。即模型可以描述为下面两个式子:

St+1∼P(St+1|St,At)St+1∼P(St+1|St,At)

Rt+1∼R(Rt+1|St,At)Rt+1∼R(Rt+1|St,At)

    如果模型P,

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

文宇肃然

精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值