
机器学习
Sixing27
这个作者很懒,什么都没留下…
展开
-
表格型方法-讲解基于价值方法去求解强化学习
MDP(S, A, P, R,r)五元组Model-based当我们知道 P 函数和 R 函数时,我们就说这个 MDP 是已知的,可以通过 policy iteration 和 value iteration 来找最佳的策略。如果知道这些状态转移概率和奖励函数的话,我们就说这个环境是已知的,因为我们是用这两个函数去描述环境的。我们其实可以用动态规划去计算,很多强化学习的经典算法都是 model-free 的,就是环境是未知的。Model-free我们是处在一个未知的环境里的,也就是这一原创 2021-07-30 12:03:01 · 149 阅读 · 0 评论 -
学习过程(强化学习)
数据分析NumpyPandas标题原创 2021-07-04 13:01:14 · 83 阅读 · 0 评论 -
Q-learning
原创 2021-06-29 11:16:47 · 78 阅读 · 0 评论