
强化学习
Titanium、
这个作者很懒,什么都没留下…
展开
-
强化学习感想
为什么用强化学习? 智能体的选择动作是根据以往的训练效果(奖惩函数),并结合当前的状态来决定;这便是强化学习的目的,挖掘状态和动作的隐蔽相关性。 如果状态和动作的相关性很明显的话,那么就不需要用强化学习来做了。 例如:在微电网的削峰填谷的场景下,任意时刻只要知道微电网当前缺电(状态),那么电动汽车就放电(动作);微电网当前电量剩余很多(状态),就给电动汽车充电(动作)。不考虑约束条件以及奖惩函数(结果)的话,这就属于相关性很明显。 但是需要考虑的是: 电动汽车在离开时,电池的电量需要达到车主的预期值。那么这原创 2021-10-20 00:06:11 · 217 阅读 · 0 评论 -
马尔科夫过程,马尔科夫奖励过程和马尔科夫决策过程
马尔科夫决策过程是强化学习中的一个基本框架,用来表示agent与环境的交互过程:agent观测得到环境的当前状态之后,采取动作,环境进入下一个状态,agent又得到下一个环境状态的信息,形成一个循环回路。 在理解马尔科夫决策过程之前,首先要理解马尔科夫、马尔科夫奖励过程。 1. 马尔科夫过程 满足马尔科夫性质的状态转换过程是马尔科夫过程; 什么是马尔科夫性质呢? 在环境状态的转换过程中,环境的下一个状态只取决于当前状态,和历史状态无关,即满足马尔科夫性质。 2. 马尔科夫奖励过程 (1)马尔科夫链可以通.原创 2020-11-02 23:31:56 · 2429 阅读 · 0 评论