马尔可夫决策过程(MDP)
马尔可夫决策过程的基本概念,作学习笔记用,资料链接在文末
马尔可夫决策过程是序贯决策的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。
一、马尔可夫性质
当一个随机过程在给定现在状态以及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态,换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么说此随机过程具有马尔可夫性质,具有马尔可夫性质的过程通常称之为马尔科夫过程。公式表示如下:
马尔可夫决策过程的基本概念,作学习笔记用,资料链接在文末
马尔可夫决策过程是序贯决策的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。
当一个随机过程在给定现在状态以及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态,换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么说此随机过程具有马尔可夫性质,具有马尔可夫性质的过程通常称之为马尔科夫过程。公式表示如下: