preprocessing

Paranoia_yy

于 2021-09-14 21:22:38 发布

阅读量162

点赞数 1

CC 4.0 BY-SA版权

分类专栏： tensorflow 文章标签： python

本文链接：https://blog.youkuaiyun.com/Paranoia_yy/article/details/120294777

tensorflow 专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍如何通过数据预处理、数据类型检查、缺失值处理、数值与类别特征转换，以SVM为例，实现完整的模型流程，包括使用最频繁填充、均值填充以及编码技巧。最后通过交叉验证评估模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据预处理

查看数据类型及数据缺失情况

data.info()

查看数字属性

data.describe()

统计类别数量

data["sex"].value_counts()

数据填充

1.用最频繁的值进行填充   X.fillna(most_frequent)
2.用均值填充			pipeline    
 数字数据 ("imputer",SimpleImputer(strategy="median"))
 类别数据 ("imputer", MostFrequentImputer())
 		 ("cat_encoder",OneHotEncoder(sparse=False))

训练模型(以SVM为例)

1.引入模型

from sklearn.svm import SVC

创建实例(clf是classification的缩写),可以设置一些参数

svm_clf = SVC(gamma="auto")

训练模型

svm_clf.fit(X_train, y_train)

使用测试集进行预测

测试集处理
x_test = full_pipline.transform(test_data)

预测数据
y_pred = svm_clf.predict(x_test)

评估结果

//引入评估函数
from sklearn.model_selection import cross_val_score
//10这交叉验证
svm_scores = cross_val_score(svm_clf, X_train, y_train, cv=10)
svm_scores.mean()