数据预处理
- 查看数据类型及数据缺失情况
data.info()
- 查看数字属性
data.describe()
- 统计类别数量
data["sex"].value_counts()
- 数据填充
1.用最频繁的值进行填充 X.fillna(most_frequent)
2.用均值填充 pipeline
数字数据 ("imputer",SimpleImputer(strategy="median"))
类别数据 ("imputer", MostFrequentImputer())
("cat_encoder",OneHotEncoder(sparse=False))
训练模型(以SVM为例)
1.引入模型
from sklearn.svm import SVC
- 创建实例(clf是classification的缩写),可以设置一些参数
svm_clf = SVC(gamma="auto")
- 训练模型
svm_clf.fit(X_train, y_train)
- 使用测试集进行预测
测试集处理
x_test = full_pipline.transform(test_data)
预测数据
y_pred = svm_clf.predict(x_test)
- 评估结果
//引入评估函数
from sklearn.model_selection import cross_val_score
//10这交叉验证
svm_scores = cross_val_score(svm_clf, X_train, y_train, cv=10)
svm_scores.mean()