一、什么是梯度?
答:▽ L就是梯度(如图),三角形符号倒过来(▽ )是梯度算子(在空间各方向上的全微分)
二、为什么要正则化?
答:我们希望得到一个平滑的function,这个function受到噪点数据的影响就会变小。对异常数据就不会那么敏感,可以提升模型的容错率。所有在Loss Function中加入了参数的平方和项
三、偏差(Bias)和方差(Variance)的关系?
答:模型越复杂,对真实数据就模拟得更加准确,期望值就接近真实值,所以偏差(Bias)就越小;但样本数据就会更加分散,方差(Variance)会增大。相反,模型越