Day 38 Dataset和Dataloader类

最新推荐文章于 2025-12-04 16:10:29 发布

原创

最新推荐文章于 2025-12-04 16:10:29 发布 · 780 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch

@浙大疏锦行

先回顾一下之前的实操部分

针对信贷数据集对day33-day37的内容进行一下实操

数据准备

# 数据准备
from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd
# 加载信贷数据集
TARGET_COLUMN = 'Credit Default'
data = pd.read_csv('data.csv')
X = data.drop(TARGET_COLUMN, axis=1)
y = data[TARGET_COLUMN]
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 打印下尺寸
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

归一化，转化为张量

核心逻辑：离散特征→独热编码（消除顺序）→数值特征归一化（消除量纲）→合并转张量（适配模型）。这一流程确保每种特征类型得到正确处理，为模型提供高质量输入

# 查看各列数据类型
print(X.dtypes)
# 筛选字符串类型列（分类特征）
categorical_cols = X.select_dtypes(include=['object']).columns.tolist()
print(f"分类特征列: {categorical_cols}")

from sklearn.preprocessing impo