强化学习经典model-free方法总结

本文对强化学习的model-free经典方法做一个总结归纳,以便在使用方法或阅读文献时进行对比查找。本文的框架如图所示:

在这里插入图片描述

1. 基于值函数(value-based)的方法

1.1 sarsa

sarsa是on-policy、离散状态、离散动作的方法。这是很原始的方法,通常用一个Q表来存储state-action value.(有的翻译成状态动作价值,有的翻译成动作价值)。

核心公式为:
在这里插入图片描述
因为用于更新Q表的动作 a t

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值