强化学习的基础总结(一)

本文是强化学习的基础总结第一部分,介绍了强化学习作为决策方法的特性,如无监督学习、延迟反馈和时间的重要性。强调了奖励假说在RL中的核心地位,目标是最大化累计奖励。此外,解释了序贯决策过程,智能体与环境的互动,以及历史和状态在决策中的作用。

强化学习的基础总结(一)

@(Machine Learning)

机器学习从大类上来分,可以有三种:

  • 监督学习
  • 无监督学习
  • 强化学习

现在关注强化学习。强化学习泛泛来说,是一种决策方法

Q:强化学习的与众不同之处是什么?
A:有以下几点。

  • 无监督。只有奖励信号。而不是监督学习中的标记空间。
  • 延迟反馈。奖励系统针对的是行为(action),是一种对动态的评价。
  • 时间很重要。强化学习是用连续型数据,而不是独立同分布的数据。
  • agent的行为影响受到的子序列数据。即:不同的action可以推导出不同的数据序列。

强化学习构建基础

RL构建在奖励假说(reward hypothesis)上.

所谓的奖励假说是:

All goals can be described by the maximisation of expected cumulative reward.

如何评价一个智能体是好是坏是RL的一个核心问题。所以提出了RL问题的目标(goal):最大化累计奖励。

所以,当思考强化学习算法时,要始终把这个核心问题放在优先位置进行考虑。一切问题也都由此出发:无论算法有多么不同,核心目标都是为了解决最大化累积奖励。

序贯判定(sequential decision making)

我们前面笼统地说了RL问题的核心目标,偏向抽象一些,而具体落实到算法上时,我们都用数学的方法来量化目标。

比如这里的方法是:选择一系列行为,最大化总的累计奖励。

遵循三个简单原则:

  • 行为可能有长远的影响(当前可能不带来最优效益甚至是于收益有损)
  • 奖励有延迟
  • 牺牲短期利益获得长期利益会更好

智能体和环境(Agent and Environment)

在RL系统中,agent和环境是两个大组成部分。

每一步,二者需要执行的动作是不同的。

agent:

  • 执行At
  • 接收观察值Ot
  • 接收标量奖励
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值