机器学习分类
- 监督学习:K邻近算法、线性回归、逻辑回归、支持向量机、决策树、随机森林、神经网络
- 无监督学习:
- 聚类:K-聚类、Hierarchical Cluster Analysis(HCA)、Expectation Maximization(EM)
- 降维:主成分分析(Principal Component Analysis, PCA)、kernel PCA、Locally-Linear Embedding(LLE)、
- 关联规则学习:Aprior、Eclat
- 在线学习、离线学习
- 模型学习、样例学习
- 强化学习
- 半监督学习
数据准备(preprocessing)
- Feature Scaling
- from sklearn.preprocessing import StandardScaler:标准化,将特征值减去均值再除以标准差,一般会把train和test集放在一起做标准化,实际应用中,需要做特征标准化的常见情景:SVM
- from sklearn.preprocessing import MinMaxScaler:最小-最大规范化对原始数据进行线性变换,变换到[0,1]区间(也可以是其他固定最小最大值的区间)
- from sklearn.preprocessing import normalize:规范化是将不同变化范围的值映射到相同的固定范围,常见的是[0,1],此时也称为归一化。《机器学习》周志华
分类问题
回归问题
- 线性回归
- from sklearn.linear_model import LinearRegressor
- 决策树
- from sklearn.tree import DecisionTreeRegressor
- from sklearn.linear_model import LinearRegressor
- from sklearn.tree import DecisionTreeRegressor