强化学习是需要建立一个存在大量表征学习参数的世界模拟器(World Simulator),模拟真实世界的逻辑和原理,它的目的和作用是:让机器(Agent)能够了解并且预测世界的规律,通过预测和规划,具备理性的逻辑分析能力。
Actor-Critic算法思想:对于一个系统,从状态输入到决策输出之间,我们可以联合Policy-based和Value-based两种决策方式去改进成为新的决策方式。Reinforcement Learning学习总结
最新推荐文章于 2024-09-06 03:41:12 发布