Model指的是针对环境的建模,即输入Action,环境的响应:Reward和State。
Model-Free:环境对输入的响应就是一个映射,without model,如常见的深度强化学习DQN/A3C/PPO等;
Model-Based:环境对输入的响应是统计概率分布P(s_new|s,a),如动态规划等传统强化学习方法。
Model指的是针对环境的建模,即输入Action,环境的响应:Reward和State。
Model-Free:环境对输入的响应就是一个映射,without model,如常见的深度强化学习DQN/A3C/PPO等;
Model-Based:环境对输入的响应是统计概率分布P(s_new|s,a),如动态规划等传统强化学习方法。