sklearn流图及解释

最新推荐文章于 2025-10-22 09:34:37 发布

原创

最新推荐文章于 2025-10-22 09:34:37 发布 · 1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文详细解析了sklearn中模型选择与数据量大小的关系。对于小样本分类，推荐使用Linear-SVC、naive bayes或KNN；大样本分类则优先考虑SGD Classifier。在聚类方面，大样本适用MiniBatch Kmeans，小样本推荐Kmeans、Spectral Cluster或GMM。回归问题中，大样本适合SGD Regressor，小样本则依据维度选择Lasso/ElasticNet或RidgeRegression/SVR。降维上，PCA适用于大样本，Isomap/Spectral Embedding或LLE适合小样本。

图片如下

简单解释：

sk-learn的这张图是这么划分的:

样本集低于50条样本，请回家好好睡一觉；
分类：
- 小样本
  - 优先使用Linear-SVC
  - 其次考虑 naive bayes(文本)、KNN
  - 最终是SVC和Ensemble Classifier
- 大样本
  - 优先使用SGD Classifier(线性模型的一种)
  - 其次考虑kernel approximation(特征转换的方式，更像是降维？)
聚类
- 半监督
  - 大样本
    - MiniBatch Kmeans
  - 小样本
    - 优先考虑Kmeans
    - Spectral Cluster / GMM
- 无监督
  - 大样本
    - 臣妾做不到啊
  - 小样本
    - MeanShift
    - VBGMM
回归：
- 大样本
  - SGD Regressor
- 小样本
  - 维度较少
    - Lasso / ElasticNet
  - 维度较多
    - RidgeRegression / SVR(linear)
    - EnsembleRegressors / SVR(RBF)
降维：
- PCA
- 大样本
  - kernel approximation
- 小样本
  - Isomap / Spectral Embedding
  - LLE

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。