1.回归模型步骤
- step1:模型假设,选择模型框架(线性模型)
- step2:模型评估,如何判断众多模型的好坏(损失函数)
- step3:模型优化,如何筛选最优的模型(梯度下降)
2.回归函数
(1)利用损失函数来评估模型的好坏,利用梯度下降算法来选出最佳模型(即求解使得损失函数最小时其对应的w与b的值)
(2)是不是能画出直线就是线性模型,各种复杂的曲线就是非线性模型? 其实还是线性模型,因为把 x_{cp}^1xcp1 = (x_{cp})^2(xcp)2 看作一个特征,那么 y = b + w_1·x_{cp} + w_2·x_{cp}^1y=b+w1⋅xcp+w2⋅xcp1 其实就是线性模型。
3.过拟合
在线性模型中,次方越高或许会使得模型的训练集表现越好,但是随着次方的逐渐升高,会出现测试集的平均误差增大的情况,这就是出现了过拟合,即训练模型过分的贴合训练集的数据,而对其他的数据集适应能力差。
过拟合问题往往源自过多的特征。
解决方法
1)减少特征数量(减少特征会失去一些信息,即使特征选的很好)
- 可用人工选择要保留的特征;
- 模型选择算法;
2)正则化(特征较多时比较有效)
- 保留所有特征,但减少θ的大小