强化学习 导论

本文深入探讨了强化学习的核心概念,包括试错机制、延迟收益、马尔可夫决策过程、策略与价值函数等。它阐述了强化学习如何通过与环境交互学习,并区分了问题、方法与领域。此外,文章还介绍了四个关键要素:策略、收益信号、价值函数和环境模型,以及强化学习的局限性和适用范围。最后,举例说明了时序差分学习方法和更新规则。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

强化学习

  • 试错延迟收益是强化学习两个最重要最显著的特征

  • 强化学习既表示一个问题,又是一类解决问题的方法,同时还是一个研究此问题及其解决方法的领域

  • 区分“问题”和“解决方法”,在强化学习中十分重要。

  • 马尔可夫决策过程包含三方面——感知动作目标

  • 强化学习目的是最大化收益信号,而不是找出数据的隐含结构。

  • 基于一般原则的方法,比如搜索或学习,被定性为“弱方法”;而基于知识的方法则被称为“强方法”。

强化学习要素

  • 在个体和环境之外,强化学习系统一般有四个要素:策略收益信号价值函数环境模型

  • 策略:定义学习智能体在给定时间内行为方式

  • 收益信号:定义强化学习问题中的目标

  • 价值函数:定义长期收益,收益信号表明直接意义上的好处。

  • 没有收益就没有价值,而评估价值的唯一目的就是获得更多的收益

  • 环境模型:对环境的模拟,它对环境的行为做出推断。例如给定状态和动作,模型可以预测结果的下一个状态下一个收益

局限性与适用范围

  • 强化学习十分依赖“状态”这个概念,它既作为策略和价值函数的输入,又同时作为模型的输入与输出
  • 强化学习方法,是在与环境互动中学习的一类方法。
  • 进化方法就其自身而言并不适用于强化学习问题。

扩展示例:井子祺

  • 前一状态的当前值被更新为更接近后续状态的值,这可以通过先前状态的值移动到稍后状态的值的一小部分来完成。如果我们让 S t S_t St表示贪婪移动之前的状态,而 S t + 1 S_{t+1} St+1表示移动之后的状态,那么将 S t S_t St的估计值更新表示为 V ( S t ) V(S_t) V(St),可以写为:
    V ( S t ) = V ( S t ) + α [ V ( S t + 1 ) − V ( S t ) ] V(S_t) = V(S_t) + \alpha\left[V(S_{t+1})-V(S_t)\right] V(St)=V(St)+α[V(St+1)V(St)]
    α \alpha α为学习率,此更新规则为时序差分学习方法的一个例子,因为其变化基于两个连续时间的估计之间的差,即: [ V ( S t + 1 ) − V ( S t ) ] \left[V(S_{t+1})-V(S_t)\right] [V(St+1)V(St)]

本章小节

  • 强化学习是一种对目标导向的学习与决策问题进行理解和自动化处理的计算方法
  • 强化学习使用马尔可夫决策过程的形式化框架,使用状态、动作和收益定义学习型智能体与环境的互动过程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羽星_s

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值