【从RL到DRL】强化学习基础(一)——强化学习基本介绍、基本的智能体概念

本文介绍了强化学习的基础概念,包括其与有监督学习和无监督学习的区别、基本要素、智能体的组成与分类等内容,并探讨了强化学习中的探索与利用、预测与控制等问题。

强化学习介绍

关于强化学习

强化学习在不同的学科中其实都具有不同的存在形式
在这里插入图片描述

  • 机器学习的分支
    • 有监督学习:利用一组已知类别的训练样本调整分类器的参数,使得习得的分类器能对未知样本进行分类或预测
    • 无监督学习:从无标注的数据中学习隐含的结构或模式
    • 强化学习:就是学习“做什么才能使数值化的收益信号最大化”,是机器通过与环境交互来实现目标的一种计算方法
  • 区别与其他机器学习算法
    • 没有监督数据,只有奖励(reward)信号
    • 奖励信号不一定是实时的,可能存在延迟
    • 时间是一个重要因素
    • 智能体(Agent)当前的动作(Action)影响后续收到的数据
    • 算法的稳定性目前仍没有具体的保证

强化学习基本要素(The RL Problem)

  • 奖励

    • 奖励(Rt)是一个反馈信号,是一个标量
    • 反应智能体(Agent)在时间步t工作得如何
    • 智能体的工作就是最大化累计奖励
    • 强化学习主要基于奖励假设(Reward Hypothesis)
    • 奖励假设:所有问题的目标都可以被描述成最大化期望的累积奖励

  • 序列决策

    • 目标:选择一定的动作序列以最大化未来的总体奖励
    • 智能体的行为可能是一个很长的动作序列
    • 大多数时候奖励是延迟的
    • 宁愿牺牲即时(短期)奖励以获得更多的长期奖励
    • 有些问题,不一定“步步优”,结果就是最优的

  • 智能体

    • 在这里插入图片描述
  • 智能体与环境

    • 智能体不是独立存在的,它需要与环境相互作用

    • 在这里插入图片描述
    • 智能体在每个时间步t:接收观测信息(observation)Ot、接收标量奖励信号Rt、执行动作(Action)At
    • 环境:接收动作 At,产生观测 Ot+1、产生标量奖励信号 Rt+1
    • 智能体结合了当前时间步长的奖励与观测信息后,完成了动作的执行,动作又会对下一个时间步长的环境产生影响,进而环境会给智能体新的观测信息与奖励

  • 历史与状态

    • 历史是观测、行动和奖励的序列
    • 在这里插入图片描述
    • 根据历史可以决定接下来会发生什么,智能体选择行动,环境选择观测及奖励
    • 状态是一种用于确定接下来会发生的事情(行动、观察、奖励)的信息
    • 状态是关于历史的函数
  • 环境状态

    • 环境状态是环境内部的状态 ,用来确定下一个观测/奖励
    • 环境状态通常对智能体是不可见的
    • 即是环境状态可见,大都包含大量不相关的信息
  • 智能体状态

    • 是智能体内部对信息的表达,包括智能体可以使用的、决定未来动作的所有信息,是强化学习算法使用的信息
    • 智能体状态时历史的函数
      ![在这里插入图片描述](https://img-blog.csdnimg.cn/8b3b83a632ae4353abf3646e3c3166ee.png#pic_cen ter =x300)
  • 信息状态(Information State)

    • 信息状态,也叫马尔科夫状态(Markov State),包含了历史上所有有用的信息 在这里插入图片描述

    • 如果给定当前时刻的状态,将来与历史无关:在这里插入图片描述

状态定义 状态定义是强化学习中极为关键的概念

  • 完全可观测的环境(Fully Observation Environments)
    • 完全可观测:智能体可以直接观察到全部环境状态在这里插入图片描述
    • 智能体状态 = 环境状态 = 信息状态
    • 正式地说,这是马尔科夫决策过程(MDP)
  • 部分可观测的环境(Partially Observable Environments)
    • 部分可观测:智能体可以观测到环境的部分
    • 智能体状态不等于环境状态
    • 正式的说,这是部分可观测马尔科夫决策过程(POMDP)

智能体组成

强化学习智能体由下述三个组件中的一个或多个组成:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值