Sklearn常见模型
knn:简单有效,适合作为基准模型,当数据量大时计算量会非常大,并且耗费内存
linearRegression: 运用最小二乘法实现的线性模型,当数据量大时计算效率不高
lasso: 添加L1正则化的线性模型,易获得权重的稀疏解,用于筛选特征
ridge: 添加L2正则化的线性模型,易获得权重的平滑解
poly: 多项式回归,容易过拟合,必须配合正则化使用
logisticRegression: 自带正则化实现,需要调节C控制正则化程度,较简单的分类模型
linearSVC: 线性支持向量机,自带正则化实现
SVC: 核支持向量机,默认是'rbf'核,调节C与gamma
decisionTree: max_depth控制过拟合,根节点深度为0
当模型过拟合时,增大alpha或者减小C;当模型欠拟合时,减小alpha或者增大C;
对特征归一化
某些机器学习算法要求输入数据必须有相同的范围:
- regularized regression
- logistic
- knn
- svm
- neural networks
优缺点对比
优点 | 缺点 |