- 博客(17)
- 收藏
- 关注
原创 CS198-126 lecture 3 Intro to DL 2
(也有研究说残差连接解决的是网络退化问题,网络退化问题即每个层中只有少量的隐藏单元对不同的输入改变它们的激活值,而大部分隐藏单元对不同的输入都是相同的反应)当梯度下降时遇到颠簸(多个局部最优值),或者有一段平坦区域,如何使损失函数最小?(epsilon是确保为了除数不为0,任意小的数,不影响计算)可以在每个线性层的末尾做归一化处理,因为归一化特征具有更好的梯度。(skip connect改善了反向传播过程中的梯度消散问题)当遇到梯度收敛时,继续前进(希望翻越小山、平地)。,综合Momentum(
2024-03-27 23:53:55
457
原创 CS198-126 lecture 2 Intro To DL 1
在众多经典的统计学习方法中,我们都观察到了这一现象:随着模型flexibility不断提升,模型逐渐从under-fitting到sweet spot再到over-fitting,在这个过程中,模型不断从train set中学习,train error不断下降趋近于0,而test error则呈现出先降后升的“U型”趋势:先随着模型拟合数据的性能增强而下降、再随着模型出现过拟合而上升。随着模型的尺寸,数据集的大小以及训练时间的增加,performance 先提升,然后变差,然后再次提升。
2024-03-11 11:48:45
388
原创 CS198-126 lecture 1 Intro To ML
如图1_1,输入是近似正弦函数的点序列。左上和右上的偏差和方差都很大;左下完美地拟合了正弦函数,虽然存在一定偏差,但模型时正确的;右下偏差更小,但过拟合了。当偏差十分小时,小心方差过大(模型完美的适应数据中的噪声,过拟合)
2024-03-10 20:38:05
156
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人