强化学习(一):Agent-Environment框架

本文介绍了强化学习的基本概念,包括Agent与环境的交互框架、奖励机制、策略生成等核心内容。探讨了不同类型的奖励如何影响Agent的学习过程,并介绍了ε-Greddy及Softmax等策略选择方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文章收录在黑鲸智能系统知识库-黑鲸智能系统知识库成立于2021年,致力于建立一个完整的智能系统知识库体系。我们的工作:收集和整理世界范围内的学习资源,系统地建立一个内容全面、结构合理的知识库。

作者博客:途中的树


强化学习算法的思路非常简单,以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步「强化」这种策略,以期继续取得较好的结果。这种策略与日常生活中的各种「绩效奖励」非常类似。我们平时也常常用这样的策略来提高自己的游戏水平。——AI百科

强化学习(RL)是机器学习的一个领域,涉及软件代理如何在环境中采取行动以最大化一些累积奖励的概念。该问题由于其一般性,在许多其他学科中得到研究,如博弈论,控制理论,运筹学,信息论,基于仿真的优化,多智能体系统,群智能,统计和遗传算法。。在运筹学和控制文献中,强化学习被称为近似动态规划或神经动态规划。——wiki

强化学习的结构

  • 强化学习使用输出 Y ( X i , s α ) Y(X_i,s_\alpha) Y(Xi,sα)产生的效果对接下来的系统(如 机器人系统)产生的影响,计算系统 S S S内部参数的变化,目的是使奖励 r r r 最大化。下面是强化学习算法的基本框架

https://img-1253324855.cos.ap-chengdu.myqcloud.com/picgo/20210725153516.png

  • 简化一下这个结构我们可以得到下图,其中系统 S α S_\alpha Sα 和学习机制组成了 Agent,评估系统和系统的外部环境组成了环境

https://img-1253324855.cos.ap-chengdu.myqcloud.com/picgo/20210725153805.png

Agent - Environment 框架

https://img-1253324855.cos.ap-chengdu.myqcloud.com/picgo/20210725153838.png

  • 由此得到一个Agent - Environment 框架
    • Agent: 在时间t 观测到状态(或情况) s s s, 并产生一个内部的行动 a t a_t at
    • 参数: 一个内部(世界)模型和一个内部行为策略 π \pi π
    • 环境所处的状态或情况 s t s_t st ( s s s 不一定是物理学、数学或工程学中严格的正式定义中的状态空间的表示。一个情况可以是真实状态的一个近似值。)
    • 行动 a t a_t at: 从允许的、可能的行动的集合中选取的行动,这个集合通常取决于 s t s_t st
    • 处于状态 s t s_t st的环境: 收到来自Agent的行动 a t a_t at,并产生新的状态/情况 s t + 1 s_{t+1} st+1反馈
  • 奖励
    • 环境从时间t到t+1的过渡变化中,为Agent产生一个反馈(奖励或惩罚)
    • 该反馈是环境对行动、状态和一个未知的、取决于内部环境的奖励系统产生的奖励
    • r t + 1 r_{t+1} rt+1是在从时间段 t t t过渡到 t + 1 t+1 t+1后产生的奖励信号
    • 新的状态 S t + 1 S_{t+1} St+1和奖励都是以离散的时间为基础产生的。

https://img-1253324855.cos.ap-chengdu.myqcloud.com/picgo/20210725155752.png

强化学习系统的组成

  • Agent
    • 包含一个策略 π \pi π 和一组内部变量。
  • 环境
    • 接收行动 a a a,产生状态 s s s和奖励 r r r,包含一个奖励系统,可能是随机的
  • 状态空间/情况空间 S S S
    • 多维空间, s t , s t + 1 s_t,s_{t+1} stst+1<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值