scikit-learn:基于Python语言的机器学习工具
scikit-learn(中文网站)是python中一个非常强大的开源工具包,集合了机器学习中经典的分类、回归、聚类算法及数据处理方法,是数据挖掘和数据分析领域的简单而有效的开发工具。
- 分类算法 Classification
支持向量机 SVM
最近邻法
gradient boosting - 回归算法 Regression
支持向量回归 SVR
Lasso - 聚类算法 Clustering
K-Means
谱聚类 spectral clustering
mean-shift
DBSCAN - 特征工程方法
sklearn 特征工程-
数据预处理
from sklearn.preprocessing import *
1.数据标准化 StandardScaler
2.区间缩放法 MinMaxScaler
3.归一化 Normalizer
4.特征二值化(定量特征) Binarizer
5.One-Hot编码(定性特征或类型特征) OneHotEncoder
6.缺失
-