图片如下

简单解释:
sk-learn的这张图是这么划分的:
- 样本集低于50条样本,请回家好好睡一觉;
- 分类:
- 小样本
- 优先使用Linear-SVC
- 其次考虑 naive bayes(文本)、KNN
- 最终是SVC和Ensemble Classifier
- 大样本
- 优先使用SGD Classifier(线性模型的一种)
- 其次考虑kernel approximation(特征转换的方式,更像是降维?)
- 小样本
- 聚类
- 半监督
- 大样本
- MiniBatch Kmeans
- 小样本
- 优先考虑Kmeans
- Spectral Cluster / GMM
- 大样本
- 无监督
- 大样本
- 臣妾做不到啊
- 小样本
- MeanShift
- VBGMM
- 大样本
- 半监督
- 回归:
- 大样本
- SGD Regressor
- 小样本
- 维度较少
- Lasso / ElasticNet
- 维度较多
- RidgeRegression / SVR(linear)
- EnsembleRegressors / SVR(RBF)
- 维度较少
- 大样本
- 降维:
- PCA
- 大样本
- kernel approximation
- 小样本
- Isomap / Spectral Embedding
- LLE

本文详细解析了sklearn中模型选择与数据量大小的关系。对于小样本分类,推荐使用Linear-SVC、naive bayes或KNN;大样本分类则优先考虑SGD Classifier。在聚类方面,大样本适用MiniBatch Kmeans,小样本推荐Kmeans、Spectral Cluster或GMM。回归问题中,大样本适合SGD Regressor,小样本则依据维度选择Lasso/ElasticNet或RidgeRegression/SVR。降维上,PCA适用于大样本,Isomap/Spectral Embedding或LLE适合小样本。
最低0.47元/天 解锁文章
90

被折叠的 条评论
为什么被折叠?



