回归算法:回归是用于估计两种变量之间关系的统计过程。
1).线性回归:所获取的结果值是连续的。LinearRegression
1.岭回归(Ridge),L2正则(平方)
2.Loss回归,L1正则(绝对值)
3.Elastic Net回归,弹性网络算法(同时使用L1和L2)
4.参数求解方式:1.最小二乘法,2.梯度下降
5.数据欠拟合问题:1.算法学习能力比较弱,2.数据样本少,3.有用的特征属性少
解决方法:1.换一个算法比如:eg,svm,集成算法,2.增加样本数据,3.增加特征属性
6.数据过拟合问题:1.算法学习能力过强,2.数据样本少,3.太多的特征增维操作
解决方法:1.换一个算法模型加入正则化系数(L1,L2),2.增加样本数据,3.多项式扩展时(PolynomialFeatures),不要做太深的维度增维操作
2).Logistic回归(分类回归:二分类):LogisticRegression(multi_class='ovr')
3.)SoftMax回归(分类回归:多分类):LogisticRegression(multi_class='multinomial')
4).梯度下降(SGD、BGD、MBGD)
SGD:随机梯度值下降,优点:效率快,缺点:可能跳过局部最优解。优先选择SGD
BGD:每次迭代都需要对批量样本的梯度值求平均梯度下降值,优势:可以得到局部最优解,缺点:效率慢
MBGD:小批量的随机梯度值下降(m个批量样本中随机挑选n个样本)
调参:通过交叉验证方式获取最佳参数
K折交叉验证(K-Fold):
是指在模型训练过程中,主要用于模型参数选择的一种方式。
步骤:
-1. 将fit传入的trai