马尔可夫决策过程(MDP)
一、强化学习引入强化学习的一个经典简化图:在上图中Agent首先观察获取当前环境的状态StS_tSt,然后根据StS_tSt采取一个行动AtA_tAt与环境进行交互,在动作AtA_tAt作用下环境的状态由StS_tSt转变为St+1S_{t+1}St+1,同时环境会给出立即给Agent一个回报RtR_tRt。如此循环下去,Agent与环境进行不断地交互从而产生很多数据。强化学习...
原创
2020-04-18 22:32:01 ·
1748 阅读 ·
0 评论