机器学习基本概念笔记(个人理解版,更新中)
1.什么是机器学习?
对一个未知的问题来说,用各种合适的算法编写成计算机程序以实现从大量的给定数据中进行结果的分析和预测。
2.验证集、测试集和训练集有什么区别和联系?
三者之间没有交集,并且三者的并集就是全部的数据集。训练集用来训练模型;测试集用来测试模型好坏;而验证集不仅用来比对不同的模型之间的好坏,并且还可以对模型内部的参数进行调整。
3.为什么正则化项的加入不仅可以防止欠拟合而且可以防止过拟合?
如下所示代价函数:
因为当w权重矩阵确定时,w.Tw是一个常数,所以λ的大小就决定了对代价函数的惩罚有多大,当λ过大时,MSE就可忽略不计,因此λw.Tw是一个常数,此时图像趋近于一条直线。而λ过小时λw.T*w又可忽略不计,此时图像趋近于MSE的图像。当λ适当时,肯定会对MSE的图像产生影响,由此调整λ的大小就可做到整体图像与MSE图像的偏离或者接近程度。