
机器学习基础
文章平均质量分 63
我说我糊涂
时间是唯一的财富。
展开
-
分类问题不采用均方误差MSE作为损失函数的根本原因
分类问题不使用MSE的本质原因原创 2022-10-16 21:39:11 · 831 阅读 · 0 评论 -
贝尔曼方程详尽推导(无跳步|带图)
贝尔曼方程推导(无跳步) 这两天学习MDP,对于贝尔曼方程有很大的困惑,而且找了很多资料都没有详尽的推导,我这里把详尽推导写出来,希望能帮到正在学习的同学们。 Vπ(s)=E[Gt∣St=s]=E[Rt+1+γGt+1∣St=s]=E[Rt+1+γVπ(s′)∣s] \begin{aligned} V_{\pi}(s) &= E[G_t|S_t=s] \\ &= E[R_{t+1} + \gamma G_{t+1}|\pmb{S_t=s}] \\ &= E原创 2021-10-11 22:37:57 · 4321 阅读 · 4 评论