共线性
何为共线性, 跟过拟合有啥关联?
共线性:多变量线性回归中,变量之间由于存在高度相关关系而使回归估计不准确。
共线性会造成冗余,导致过拟合。
解决方法:排除变量的相关性/加入权重正则。
log
数学里面的规矩,通通都是e,特别是在数论里面,基本上不用ln,都用log;
g才是10为底。
独立同分布(i.i.d)
对于图像也是,它表示为你用来表示这样图像的特征的各个维度之间是独立的。拿一个人来说,我们如果用它的身高、体重、三维来代替他。那这些就是他的特征了。对于他来说,这些特征就可以看做是独立同分布了。对于一个图像同样是这样。而用到独立同分布最重要的原因是:你可以将一个样本(一张图片)的概率分布表示为各个特征维度上面的概率分布的乘积。
经典监督学习场景中的独立同分布I.I.D,即假设训练数据和测试数据是满足相同分布的,通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。
例如:如果识别狗的训练集中喂给机器的大部分图片都是在草地或者地面上玩耍的狗,那么机器无法准确识别在水中的狗。
另一个例子是,人类在对“狗”有认识的基础上通过少量样本建立起对“狼”的识别,但机器往往无法做到这点。
理解共线性与I.I.D.
本文介绍了共线性概念及其与过拟合的关系,探讨了解决共线性的方法,并解释了独立同分布(i.i.d.)原理在监督学习中的作用。
2万+

被折叠的 条评论
为什么被折叠?



