主要是线性回归部分
1)使用数据集:岩石水雷,红酒,鲍鱼,碎玻璃
2)分位图数据展示: 四分位,十分位,箱线图
3)归一化: Sigmoid函数
4)性能评价指标: 均方误差(MSE)(总体方差:S^2= ∑(X- ) ^2 / n , 样本方差 S^2= ∑(X-
) ^2 / (n-1))
平均绝对错误(MAE)
标准差(RMSE)
AUC曲线(不同阈值条件下概率曲线)
ROC曲线(对比模型在训练集及测试集上的性能)
5)方法: 前向逐步回归(贪婪算法的思路,从最优的一列开始,到最优的两列,直到最优的N列)
惩罚线性回归:岭回归与L2范数
Lasso回归与L1范数
弹性网络Elastic Net :同时含有L1和L2正则项,两者的系数和为1
最小角度回归(LARS):需要设定步长与步数
Glmnet算法