
强化学习
文章平均质量分 52
waski
在读研究生,致力于整理有关编程语言、机器学习、前端、技术美术、二次开发等领域知识,分享最新学术资讯,欢迎大家一起学习交流~
展开
-
【强化学习笔记一】初识强化学习(定义、应用、分类、性能指标、小车上山案例及代码)
第1章 初识强化学习1.1 强化学习及其关键元素强化学习(Reinforcement Learning,RL)是根据奖励信号来改进策略的机器学习方法。如图所示,强化学习通常由两部分组成:智能体和环境。在一个强化学习系统中,智能体可以观察环境,并根据观测行动。在行动之后,能够获得奖励或付出代价。强化学习通过智能体与环境的交互记录来学习如何最大化奖励或最小化代价。强化学习的最大特点是在学习过程中没有正确答案,而是通过奖励信号来学习。智能体和环境接口主要有以下两个环节:❑智能体观测环境,可以获得环境原创 2024-03-13 18:18:44 · 1703 阅读 · 0 评论 -
时序差分(TD)算法:
1. 小猴子每走1步,看一下这个路口的V值,还有获得的奖励r; 2. 回到原来的路口,把刚刚看到的V值和奖励r进行运算,估算出V值。原创 2023-02-26 22:13:31 · 426 阅读 · 0 评论 -
蒙地卡罗(MC)算法
1. 我们把智能体放到环境的任意状态;2. 从这个状态开始按照策略进行选择动作,并进入新的状态。3. 重复步骤2,直到最终状态;4. 我们从最终状态开始向前回溯:计算每个状态的G值。5. 重复1-4多次,然后平均每个状态的G值,这就是我们需要求的V值。原创 2023-02-26 22:08:08 · 269 阅读 · 0 评论 -
强化学习中的Q值和V值
定义 - 评估动作的价值,我们称为Q值:它代表了智能体选择这个动作后,一直到最终状态奖励总和的期望评估状态的价值,我们称为V值:它代表了智能体在这个状态下,一直到最终状态的奖励总和的期望价值越高,表示我从当前状态到最终状态能获得的平均奖励将会越高原创 2023-02-26 22:04:46 · 1681 阅读 · 0 评论