目录 Agent Policy Exploration & Exploitation Model Environment MDP与POMDP 一分钟小视频: 什么是强化学习(Reinforcement Learning)?【知多少】_哔哩哔哩_bilibili 参考: 01 强化学习Agent的基础内容 - 知乎 马尔可夫决策过程 - 知乎 马尔科夫决策过程(Markov decision process, MDP)和马尔科夫奖励过程(Markov Reward Process)_老实人小李的博客-优快云博客 <规划与决策>—MDP、POMDP及其应用 - 简书