1.数据载入
from sklearn import datasetsiris = datasets.load_iris()
2.数据集划分【原来sklearn本身已经实现了,之前做交叉验证对比试验却忘记用了。。。】
from sklearn.cross_validation import train_test_split #注:后期版本 from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
3.数据标准化处理
from sklearn.preprocessing import StandardScaler#数据标准化sc=StandardScaler() sc.fit(X_train) #通过训练集计算均值和方差X_train_std=sc.transform(X_train)X_test_std=sc.transform(X_test) #测试集使用和训练集相同的均值和方差
sklearn里面的很多算法都已经支持多分类器,但是需要默认设置分类器方法为One-Vs-Rest(OvR)