强化学习
文章平均质量分 78
会意
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【强化学习】在线学习(Online Learning) 和 离线学习(Offline Learning) 主要区别
在线学习:实时交互、策略更新立即影响行为,适合需要即时适应环境的场景。离线学习:基于历史数据训练,策略更新与交互分离,适合安全性要求高或实时交互成本高的场景。两者的选择取决于具体的应用场景、数据可用性以及系统对安全性和实时性的要求。原创 2024-12-04 16:27:14 · 4131 阅读 · 0 评论 -
【强化学习】折扣回报、动作价值函数、状态价值函数 的定义与关系
VπsEπRtγVπSt1∣StsVπsEπRtγVπSt1∣StsQπsaEπRtγQπSt1At1∣StsAtaQπsaEπRtγQπSt1At1∣StsAta状态价值函数关注的是从状态sss开始的总回报。动作价值函数关注的是从状态sss选择动作aaa后的总回报。原创 2024-11-21 15:49:53 · 2980 阅读 · 0 评论
分享