一、机器学习的一些概念:
- 有监督:探索X中的自变量之间的关系
- 无监督:估计y和X之间的关系f(.)(建模目标)
- 泛化能力:经过多组数据进行训练而出现一组规律可循的数据进行对下组的数据进行预测分析
- 过拟合欠拟合(方差和偏差以及各自解决办法):极力拟合当前观察的数据,(黑箱中过度的参数造成不可控因素)因此有可能过度拟合,,解决办法:在黑箱模型在训练的过程中使用“袋外数据”(Out of Bag [OOB])来避免过度拟合的影响;欠拟合是捕捉的特征参数过少,解决办法是需要捕捉更多的参数特征。
- 交叉验证:对数据进行拆分从而进行验证的结果,使降低结果的平均值进行减少方差 ,降低误差的可能性。
二、线性回归原理:利用样本个数以及特征数 用公示进行计算出损失函数代价函数等
三、线性回归损失函数、代价函数、目标函数
1.损失函数
2.代价函数
四、优化方法(梯度下降法、牛顿法、拟牛顿法等)
1.梯度下降法:一步一步进行迭代,边训练数据,边调整参数,微分求偏导,造成一种梯度下降趋势
2.牛顿法:利用牛顿法对数据进行迭代,对函数进行收敛,根据近似求解方程的思想,对解进行无限接近。
3.拟牛顿法:拟牛顿法改善了牛顿法求矩阵逆矩阵时的缺陷,简化了复杂度,根据一步一步进行偏导,使之梯度更快的下降,产生足够的收敛性。
五、线性回归的评估指标:
SSE(和方差、误差平方和):SSE越接近于0,说明模型选择和拟合性更好,说明数据预测更成功。
MSE(均方差、方差):跟SSE的功能一样,越接近0,说明模型选择和拟合性更好
RMSE(均方根、标准差):跟SSE功能一样
R-square(确定系数):通过公式SSR/SST可知,确定系数越靠近1预测性就越准,可解释性也就越强。
六、sklearn参数详解
-activation :激活函数,{‘identity’, ‘logistic’, ‘tanh’, ‘relu’}, 默认relu
- identity:f(x) = x
- logistic:其实就是sigmod,f(x) = 1 / (1 + exp(-x)).
- tanh:f(x) = tanh(x).
- relu:f(x) = max(0, x)
第一次写博客,