先回顾一下之前的实操部分
针对信贷数据集对day33-day37的内容进行一下实操
数据准备
# 数据准备
from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd
# 加载信贷数据集
TARGET_COLUMN = 'Credit Default'
data = pd.read_csv('data.csv')
X = data.drop(TARGET_COLUMN, axis=1)
y = data[TARGET_COLUMN]
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 打印下尺寸
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)
归一化,转化为张量
核心逻辑 :离散特征→独热编码(消除顺序)→数值特征归一化(消除量纲)→合并转张量(适配模型)。这一流程确保每种特征类型得到正确处理,为模型提供高质量输入
# 查看各列数据类型
print(X.dtypes)
# 筛选字符串类型列(分类特征)
categorical_cols = X.select_dtypes(include=['object']).columns.tolist()
print(f"分类特征列: {categorical_cols}")
from sklearn.preprocessing impo

最低0.47元/天 解锁文章

1224

被折叠的 条评论
为什么被折叠?



