强化学习导论 第一章 : 策略 价值函数 奖赏函数 环境等基本概念

本文是《强化学习 - An Introduction》的读书笔记,介绍了强化学习的基本元素:策略(policy)、奖赏函数(reward function)、价值函数(value function)和环境模型。政策决定了在特定环境下的最佳行动,奖励函数评估当前步骤,价值函数则考虑长期利益。文中还讨论了模型学习和进化方法的区别,并通过tik-tok-toc游戏举例说明了价值函数的更新规则,以及如何利用先验知识、连续动作、监督学习和环境模型来提升学习效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这是最近读sutton的“reinforcement learning - An introduction”的读书笔记,其实大多数更像是按照自己理解写的中文翻译,可能语言有时没有那么严谨,主观因素多一点,更像是一种和自己的对话。希望各位看官多多包涵,如果想真正理解一些,最好对照着英文原本看,也许能看出自己的想法。

这次第一篇就写第一章。第一章是概述,更多的是从宏观上讲强化学习的一些概念和思想,虽然概括性较强,但也还是有很多值得细读的点,在下文一一道来。

1、强化学习中的基本元素:

policy --相当与环境和动作之间的一个映射,某种环境下最应该做什么动作呢?这个是由policy决定的。policy的所有可能组成一个policy空间,强化学习的目的,就是在这个巨大的空间中,学习到某一种最优的policy。

reward function -- 也可以看成是一个映射,关于当前的动作,或者当前环境和当前动作的pair的好不好的一个评价。属于立即评价,只考虑当前这一步的好坏。

value function -- 和上面的reward function对比着看,这一步考虑的是当前环境状态的长远优势,也就是以当前状态为起点,以后的多个时间点之后的各个状态的reward之和。如何更好的估计这个值,是几乎所有增强学习问题的解决重点和难点。这个也是如何评定一个policy好坏的标准。也是把增加学习和evoluation method (例如遗传算法)区别开的地方。

model of environment -- 对环境的建模。这个模型有点预测环境的走向的意思。比如,假如我有了这个模型,我可以知道在当下的环境下,下一步的环境状态和reward是什么。这样,我就不必去真实的走这一步,就已经知道结果了,也就是不用非得试错了。这是个新的发展方向。

关于evolution method 要多说点:它和强化学习的区别在于,它不利用任何你的过程信息,只使用结果。比如我采用某一个policy,我就用这固定的policy和环境进行多次实验,看看最后的结果概率分布,然后知道这个policy有多大概率赢。然后换下一个,继续大量实验。最后在policy空间里找到一个最优的。它的缺点是忽略了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值