学习笔记,仅供参考,有错必纠 文章目录 马尔科夫决策 马尔科夫决策要求 马尔科夫决策过程由5个元素构成 状态转移过程 状态价值函数 最优价值函数 Bellman方程 马尔科夫决策 马尔科夫决策要求 能够检测到理想的状态 可以多次尝试 系统的下个状态只与当前状态信息有关,而与更早之前的状态无关 在决策过程中还和当前采取的动作有关 马尔科夫决策过程由5个元素构成 S:表示状态集(states) A:表示一组动作(actions) P:表示状态转移概率 P s a P_{sa} P