Iridescent:Day 5

离散特征的独热编码处理

https://blog.youkuaiyun.com/weixin_45655710?type=blog
@浙大疏锦行

DAY 5 离散特征的处理(独热编码)

知识点回顾:

  1. 独热编码和填补缺失值的顺序关系
  2. 部分代码不能跳步执行的原因

题目:离散特征的独热编码
先按照示例代码过一遍,然后完成下列题目
现在在py文件中一次性处理data数据中所有的连续变量和离散变量,注意是py文件中,所以每一步的输出是否正确需要你来使用debugger功能来逐步查看

  1. 读取data数据
  2. 填补缺失值(离散+连续)
  3. 对离散变量进行one-hot编码
  4. 对独热编码后的变量转化为int类型

注意: 这里区分离散变量仅仅通过object类型,实际中还需要结合对数据的认识,这里为了方便没有考虑现实意义。

课后作业: 尝试按照正确的逻辑来处理下,借助AI理解下如何操作。
小提示: 可以把之前的所有代码按照顺序(删除冗余部分)整理到一个单元格中,让ai修改逻辑即可。

# 导入必要库
import pandas as pd
import warnings
warnings.filterwarnings('ignore')  # 忽略无关警告

def preprocess_data(file_path):
    """
    完整的数据预处理流程:处理连续变量和离散变量
    步骤:1.读取数据 → 2.填补缺失值(连续+离散)→ 3.独热编码 → 4.转换int类型
    """
    # -------------------------- 1. 读取数据 --------------------------
    print("=== 步骤1:读取数据 ===")
    data = pd.read_csv(file_path)
    # 调试:查看数据基本信息(可通过debugger观察)
    print(f"数据形状:{data.shape}")
    print(f"原始列名:{list(data.columns)}")
    print(f"缺失值统计(前5列):\n{data.isnull().sum().head()}\n")
    
    # -------------------------- 2. 填补缺失值(连续+离散)--------------------------
    print("=== 步骤2:填补缺失值 ===")
    # 区分连续变量(非object类型)和离散变量(object类型)
    discrete_cols = [col for col in data.columns if data[col].dtype == 'object']
    continuous_cols = [col for col in data.columns if data[col].dtype != 'object']
    
    print(f"离散变量:{discrete_cols}")
    print(f"连续变量:{continuous_cols}\n")
    
    # 填补连续变量缺失值:用均值(数值型数据的常用填充方式)
    for col in continuous_cols:
        if data[col].isnull().sum() > 0:
            mean_val = data[col].mean()
            data[col].fillna(mean_val, inplace=True)
            print(f"连续变量 {col}:用均值 {mean_val:.2f} 填补缺失值")
    
    # 填补离散变量缺失值:用众数(类别型数据的常用填充方式)
    for col in discrete_cols:
        if data[col].isnull().sum() > 0:
            mode_val = data[col].mode()[0]  # mode()返回Series,取第一个众数
            data[col].fillna(mode_val, inplace=True)
            print(f"离散变量 {col}:用众数 {mode_val} 填补缺失值")
    
    # 调试:确认缺失值已填补完成
    missing_after = data.isnull().sum().sum()
    print(f"\n填补后总缺失值:{missing_after}(应为0)\n")
    
    # -------------------------- 3. 对离散变量进行one-hot编码 --------------------------
    print("=== 步骤3:独热编码 ===")
    # 保存编码前的列名(用于后续筛选编码后的新列)
    cols_before_encoding = set(data.columns)
    
    # 独热编码:drop_first=True避免多重共线性(可选,根据需求调整)
    data = pd.get_dummies(data, columns=discrete_cols, drop_first=True)
    
    # 调试:查看编码后的变化
    cols_after_encoding = set(data.columns)
    encoded_cols = list(cols_after_encoding - cols_before_encoding)  # 编码后的新列
    print(f"独热编码新增列数:{len(encoded_cols)}")
    print(f"编码后的新列示例:{encoded_cols[:5]}(若有)\n")
    
    # -------------------------- 4. 对独热编码后的变量转化为int类型 --------------------------
    print("=== 步骤4:转换为int类型 ===")
    # 独热编码后的列默认是bool/uint8,统一转为int
    for col in encoded_cols:
        data[col] = data[col].astype(int)
    
    # 调试:确认编码列类型正确
    print(f"编码列类型示例:")
    for col in encoded_cols[:3]:  # 打印前3个编码列的类型
        print(f"{col}: {data[col].dtype}(应为int64)")
    
    print("\n=== 数据预处理完成 ===")
    print(f"最终数据形状:{data.shape}")
    return data

# -------------------------- 主程序执行 --------------------------
if __name__ == "__main__":
    # 请替换为你的data.csv文件路径(相对路径或绝对路径均可)
    DATA_PATH = r"D:\桌面\PythonStudy\Python60DaysChallenge-main\data.csv"
    
    # 执行预处理
    processed_data = preprocess_data(DATA_PATH)
    
    # 可选:保存预处理后的数据(方便后续使用)
    processed_data.to_csv("processed_data.csv", index=False)
    print("\n预处理后的数据已保存为 processed_data.csv")

在这里插入图片描述

关键说明(确保正确执行)

类别说明
文件路径请将 DATA_PATH 替换为你本地 data.csv 的实际路径(Windows系统注意用 r 开头避免转义字符问题)。
逻辑正确性严格遵循「先填补缺失值,后独热编码」,避免编码后填充导致的逻辑错误。
缺失值填充规则- 连续变量(数值型):用「均值」填充(符合数值分布特性)。
- 离散变量(类别型):用「众数」填充(符合类别分布特性)。
独热编码细节drop_first=True 会删除每个离散变量的第一个类别(避免多重共线性),若需保留全部类别,可改为 drop_first=False
调试要点- 用 print 语句查看每一步的输出(如数据形状、缺失值数量、列类型)。
- 若使用PyCharm等IDE,可在关键步骤(如填补后、编码后)设置断点,通过debugger查看 data 的具体内容。

如何运行和调试

  1. 将上述代码保存为 data_preprocessing.py 文件。
  2. 确保已安装 pandas:pip install pandas
  3. 运行脚本:直接双击文件,或在终端执行 python data_preprocessing.py
  4. 调试步骤(以 PyCharm 为例):
    • data = pd.read_csv(file_path) 行设置第一个断点。
    • 右键选择「Debug ‘data_preprocessing’」。
    • 按「Step Over(F8)」逐步执行,观察 data 变量的变化(在「Variables」窗口查看)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值