马尔可夫决策模型(转)

最新推荐文章于 2023-08-10 23:54:15 发布

原创

最新推荐文章于 2023-08-10 23:54:15 发布 · 2.9k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#游戏 #AI #算法

本文介绍了马尔可夫决策过程（MDP）及其在人工智能中的应用，强调了MDP在处理决策问题时如何简化复杂性，忽略历史影响，仅基于当前状态进行规划。MDP与POMDP、DEC-POMDP、POSG和半马尔可夫决策过程的关系和区别也被阐述，展示了MDP在处理不确定性问题中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一个偶尔的机会接触到了MDP，马尔可夫决策过程，突然发现多年的困惑有点头绪了，分享一段东西。

以下东西摘自某博士论文部分（若有版权问题请及时告知）：

以哲学观点来看，人类来到世间至少有三件事要做：认识世界；改造世界；享受世界。

在这其中，学习类问题对应认识世界，而决策类问题便是和改造世界紧密相关的。决策问题伴随着人们的日常生活，大至公司乃至国家的战略性决定，小至个人利益相关的一些选择。‘决策’又区别于简单的‘决定’以及‘选择’。它通常涉及的是一个过程，其最终对应的行动的执行一般是多步的。在每一步，都要去做一个选择。不同的选择，不同的行动，导致不同的结果，进而也意味着不同的收益。决策不能孤立的进行，若不考虑现在与将来的联系，很难在整个过程中获得最好的收益，就如同在一次长跑比赛中，我们不能在起点就用尽全力冲刺一样。事实上，决策问题与人们的社会生活的联系是如此密切，可以说，一切社会实践活动都离不开决策，甚至，从辨证的观点看，若是把主观世界也当作客观世界的一部份，那么学习本身也是一个改造世界的过程，其过程也一样讲究策略，我们改造就是自己罢了。

对于智能体而言，当其面对客观世界中存在的一个待解决的问题时，首先，他的学习能力使其在主观世界中获得了对该问题的一个抽象的描述，对应为问题的模型，这其中通常包括：

¨        问题所有可能的状态，

¨        问题发展过程的演变规律，

¨        智能体在过程中可以做出的选择，

¨        智能体所期望的结果等。

事实上，这就是MDP模型的基本构成部分，

而所谓的智能体进行决策，也就是指智能体在此模型的基础上，基于问题过程的规律进行规划，利用智能体可行的选择参与改变过程，使其朝自身期望的结果发展，最终解决问题。总的来说，决策基于问题的模型再结合规划的方法两部分完成。在人工智能