Iridescent:Day 5

离散特征的独热编码处理

最新推荐文章于 2025-12-06 18:40:48 发布

原创最新推荐文章于 2025-12-06 18:40:48 发布 · 567 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#python

Python Study 专栏收录该内容

19 篇文章

订阅专栏

https://blog.youkuaiyun.com/weixin_45655710?type=blog
@浙大疏锦行

DAY 5 离散特征的处理（独热编码）

知识点回顾:

独热编码和填补缺失值的顺序关系
部分代码不能跳步执行的原因

题目：离散特征的独热编码
先按照示例代码过一遍，然后完成下列题目
现在在py文件中一次性处理data数据中所有的连续变量和离散变量,注意是py文件中，所以每一步的输出是否正确需要你来使用debugger功能来逐步查看

读取data数据
填补缺失值（离散+连续）
对离散变量进行one-hot编码
对独热编码后的变量转化为int类型

注意： 这里区分离散变量仅仅通过object类型，实际中还需要结合对数据的认识，这里为了方便没有考虑现实意义。

课后作业: 尝试按照正确的逻辑来处理下，借助AI理解下如何操作。
小提示: 可以把之前的所有代码按照顺序（删除冗余部分）整理到一个单元格中，让ai修改逻辑即可。

# 导入必要库
import pandas as pd
import warnings
warnings.filterwarnings('ignore')  # 忽略无关警告

def preprocess_data(file_path):
    """
    完整的数据预处理流程：处理连续变量和离散变量
    步骤：1.读取数据 → 2.填补缺失值（连续+离散）→ 3.独热编码 → 4.转换int类型
    """
    # -------------------------- 1. 读取数据 --------------------------
    print("=== 步骤1：读取数据 ===")
    data = pd.read_csv(file_path)
    # 调试：查看数据基本信息（可通过debugger观察）
    print(f"数据形状：{data.shape}")
    print(f"原始列名：{list(data.columns)}")
    print(f"缺失值统计（前5列）：\n{data.isnull().sum().head()}\n")
    
    # -------------------------- 2. 填补缺失值（连续+离散）--------------------------
    print("=== 步骤2：填补缺失值 ===")
    # 区分连续变量（非object类型）和离散变量（object类型）
    discrete_cols = [col for col in data.columns if data[col].dtype == 'object']
    continuous_cols = [col for col in data.columns if data[col].dtype != 'object']
    
    print(f"离散变量：{discrete_cols}")
    print(f"连续变量：{continuous_cols}\n")
    
    # 填补连续变量缺失值：用均值（数值型数据的常用填充方式）
    for col in continuous_cols:
        if data[col].isnull().sum() > 0:
            mean_val = data[col].mean()
            data[col].fillna(mean_val, inplace=True)
            print(f"连续变量 {col}：用均值 {mean_val:.2f} 填补缺失值")
    
    # 填补离散变量缺失值：用众数（类别型数据的常用填充方式）
    for col in discrete_cols:
        if data[col].isnull().sum() > 0:
            mode_val = data[col].mode()[0]  # mode()返回Series，取第一个众数
            data[col].fillna(mode_val, inplace=True)
            print(f"离散变量 {col}：用众数 {mode_val} 填补缺失值")
    
    # 调试：确认缺失值已填补完成
    missing_after = data.isnull().sum().sum()
    print(f"\n填补后总缺失值：{missing_after}（应为0）\n")
    
    # -------------------------- 3. 对离散变量进行one-hot编码 --------------------------
    print("=== 步骤3：独热编码 ===")
    # 保存编码前的列名（用于后续筛选编码后的新列）
    cols_before_encoding = set(data.columns)
    
    # 独热编码：drop_first=True避免多重共线性（可选，根据需求调整）
    data = pd.get_dummies(data, columns=discrete_cols, drop_first=True)
    
    # 调试：查看编码后的变化
    cols_after_encoding = set(data.columns)
    encoded_cols = list(cols_after_encoding - cols_before_encoding)  # 编码后的新列
    print(f"独热编码新增列数：{len(encoded_cols)}")
    print(f"编码后的新列示例：{encoded_cols[:5]}（若有）\n")
    
    # -------------------------- 4. 对独热编码后的变量转化为int类型 --------------------------
    print("=== 步骤4：转换为int类型 ===")
    # 独热编码后的列默认是bool/uint8，统一转为int
    for col in encoded_cols:
        data[col] = data[col].astype(int)
    
    # 调试：确认编码列类型正确
    print(f"编码列类型示例：")
    for col in encoded_cols[:3]:  # 打印前3个编码列的类型
        print(f"{col}: {data[col].dtype}（应为int64）")
    
    print("\n=== 数据预处理完成 ===")
    print(f"最终数据形状：{data.shape}")
    return data

# -------------------------- 主程序执行 --------------------------
if __name__ == "__main__":
    # 请替换为你的data.csv文件路径（相对路径或绝对路径均可）
    DATA_PATH = r"D:\桌面\PythonStudy\Python60DaysChallenge-main\data.csv"
    
    # 执行预处理
    processed_data = preprocess_data(DATA_PATH)
    
    # 可选：保存预处理后的数据（方便后续使用）
    processed_data.to_csv("processed_data.csv", index=False)
    print("\n预处理后的数据已保存为 processed_data.csv")

在这里插入图片描述

关键说明（确保正确执行）

类别	说明
文件路径	请将 `DATA_PATH` 替换为你本地 `data.csv` 的实际路径（Windows系统注意用 `r` 开头避免转义字符问题）。
逻辑正确性	严格遵循「先填补缺失值，后独热编码」，避免编码后填充导致的逻辑错误。
缺失值填充规则	- 连续变量（数值型）：用「均值」填充（符合数值分布特性）。 - 离散变量（类别型）：用「众数」填充（符合类别分布特性）。
独热编码细节	`drop_first=True` 会删除每个离散变量的第一个类别（避免多重共线性），若需保留全部类别，可改为 `drop_first=False`。
调试要点	- 用 `print` 语句查看每一步的输出（如数据形状、缺失值数量、列类型）。 - 若使用PyCharm等IDE，可在关键步骤（如填补后、编码后）设置断点，通过debugger查看 `data` 的具体内容。

如何运行和调试

将上述代码保存为 data_preprocessing.py 文件。
确保已安装 pandas：pip install pandas。
运行脚本：直接双击文件，或在终端执行 python data_preprocessing.py。
调试步骤（以 PyCharm 为例）：
- 在 data = pd.read_csv(file_path) 行设置第一个断点。
- 右键选择「Debug ‘data_preprocessing’」。
- 按「Step Over（F8）」逐步执行，观察 data 变量的变化（在「Variables」窗口查看）。