机器学习的本质:利用样本数据,借助各种机器学习方法,找到一个从变量x到y的映射函数f,并用映射函数f来预测测试样本的标签值。
逻辑回归:即线性回归,它是一种线性拟合算法,可以简单理解为,通过样本数据,找到相应的线性函数映射,即截距项的值和斜s值。
拟合样本数据的思想:求能够使最小二乘项(损失函数)取得最小值对应的截距项值和斜率值。
过拟合:对样本数据的拟合程度过高,这往往是由于拟合直线过于复杂导致。
过拟合产生的原因:过分追求直线对样本数据的拟合度,忽视了训练模型的泛化能力(推广能力)。
过拟合解决的方法之一:在损失函数中增加正则项,正则项的意义在于增加拟合系数的权重,从而达到简化模型,减弱过拟合程度的目的。