强化学习1

本文介绍了强化学习的基础,包括MDP过程、回报和长期收益的概念、Agent的Policy、Value函数和Model,以及Agent的分类。此外,还探讨了Value Based、Policy Based和Actor Critic方法,并阐述了蒙特卡洛和时序差分学习方法的基本思想。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.MDP过程 \textbf{1.MDP过程} 1.MDP过程

Markov Decision Process过程示意图

2.单轮回报reward   R和长期回报return   G \textbf{2.单轮回报reward R和长期回报return G} 2.单轮回报reward R和长期回报return G
Reward R是单轮回报 R n R_n Rn, Return G是序列未来的整体收益 G n G_n Gn,可以表示为:
G n = R n + 1 + R n + 2 ∗ r + . . . + R n + t ∗ r t − 1 + . . . \small G_n = {R_n+1 + R_{n+2}*r + ... + R_{n+t}*r^{t-1}+ ...} Gn=Rn+1+Rn+2r+...+Rn+trt1+... \qquad [1]
其中r是衰减系数

3.Agent \textbf{3.Agent}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值