preprocessing

数据预处理

  1. 查看数据类型及数据缺失情况
data.info() 
  1. 查看数字属性
data.describe()
  1. 统计类别数量
data["sex"].value_counts()
  1. 数据填充
1.用最频繁的值进行填充   X.fillna(most_frequent)
2.用均值填充			pipeline    
 数字数据 ("imputer",SimpleImputer(strategy="median"))
 类别数据 ("imputer", MostFrequentImputer())
 		 ("cat_encoder",OneHotEncoder(sparse=False))

训练模型(以SVM为例)

1.引入模型

from sklearn.svm import SVC
  1. 创建实例(clf是classification的缩写),可以设置一些参数
svm_clf = SVC(gamma="auto")
  1. 训练模型
svm_clf.fit(X_train, y_train)
  1. 使用测试集进行预测
测试集处理
x_test = full_pipline.transform(test_data)
预测数据
y_pred = svm_clf.predict(x_test)
  1. 评估结果
//引入评估函数
from sklearn.model_selection import cross_val_score
//10这交叉验证
svm_scores = cross_val_score(svm_clf, X_train, y_train, cv=10)
svm_scores.mean()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值