1、官方网站简单介绍
http://scikit-learn.org/stable/index.html
1、分类Classification
应用:垃圾邮件过滤、图像检测
算法:svm,近邻检测、随机深林等
2、回归Regression
应用:Drug response, Stock prices(股票价格)
算法:SVR 岭回归,lasso
3、聚类Clustering
应用:客户分类
算法:k-Means, spectral clustering,mean-shift, ...
4、降维
Applications: Visualization, Increased efficiency
方法: PCA, feature selection(特征选择), non-negative matrix factorization(不相关矩阵分析)
5、模型选择model selection
Comparing, validating and choosing parameters and models.
Goal: Improved accuracy via parameter tuning 主要提高精度和参数优化
Modules: grid search, cross validation, metrics.
6、预处理Preprocessing
Feature extraction and normalization.特征提出和归一化,主要是特征工程
Application: Transforming input data such as text for use with machine learning algorithms.
Modules: preprocessing, feature extraction.
2、scikit-learn个人评价
1、真正要用到的时候,时间上在模型选择优化和特征选择上回耗费比较大的力气
2、官方的examples做的还是相当全的,对初学者来说可以保持良好的兴趣。其实初学者spss可能更好入门一些,直接使用scikit-learn,偏重于学习,机器学习的模型评估是比较麻烦的,本身这一块没有传统从统计学方面来介绍的好
3、简书上有一篇文章;http://www.jianshu.com/p/1c6efdbce226 介绍的也不错可以参考
3、相关地址
相关例子
http://scikit-learn.org/stable/auto_examples/index.html
相关api文档