AI数据预处理“神器”：Pandas实战技巧，从“缺失值填充”到“特征编码”全流程-优快云博客

痛点场景：
“‘数据集里一半是NaN，该删还是该填？’‘类别特征有100个取值，One-Hot编码后列数爆炸怎么办？’——如果你在AI项目中被这些问题卡住，那Pandas的实战技巧就是你的‘通关秘籍’。”

核心能力：Pandas支持读取CSV、Excel、JSON、数据库等10+种格式文件，无需手动转换数据格式。
- 示例场景：某电商平台需分析用户购买数据，数据存储在MySQL数据库中，用pd.read_sql() 可直接读取表数据，避免“导出CSV再导入”的繁琐步骤。
高效技巧：读取10GB以上大文件时，用chunksize参数分块加载（如每次读取10万行），防止内存溢出。

① 查看维度与类型：用df.shape （行数/列数）和df.info() 快速判断数据规模（如10万行×30列），并定位“数据类型错误”（如日期列被识别为字符串）。
② 统计描述找异常：df.describe() 自动计算数值列的均值、中位数、最大/最小值——某金融项目中，通过该功能发现“用户年龄”字段存在150岁的异常值，追溯后发现是数据录入时多写了一个“1”。
③ 抽样预览数据：df.head() 查看前5行数据，避免因表头错位、分隔符错误导致的读取问题（如CSV文件中某列包含逗号，需用sep='\t'指定分隔符）。

① 直接删除（缺失比例＜5%，非关键特征）：
- 适用场景：如“用户昵称”列缺失，对模型预测无关紧要，可直接删除缺失行。
- 避坑：关键特征（如“用户年龄”“收入”）即使缺失率低也不能删，否则会影响模型效果。
② 数值型填充（均值/中位数/插值法）：
- 中位数填充：某房产预测项目中，“房屋面积”列存在极端值（如1000㎡的异常值），用中位数填充比均值更稳健（均值受极端值影响大）。
- 插值法填充：时间序列数据（如股票价格）用前一个有效值填充（ffill），某量化交易项目通过该方法处理了“停牌日股价缺失”问题，使K线图连续显示。
③ 类别型填充（众数/特殊值）：
- 众数填充：“职业”列缺失时，用出现次数最多的“上班族”填充（df['职业'].mode()[0]）。
- 特殊值标记：“学历”列缺失时，用“未知”单独标记，模型可学习该类别与目标变量的关系（如“未知学历用户的贷款违约率更高”）。
工具提效：在处理大量缺失值时，可借助 智优达Python Pandas数据清洗技巧 中的“缺失值可视化”方法，通过热力图直观展示缺失分布，快速判断是否存在“数据缺失与目标变量相关”的情况（如某类用户故意不填年龄）。

① One-Hot编码（适合低基数名义变量）：
- 场景：“性别”（男/女）、“婚姻状况”（已婚/未婚）等取值≤10个的特征，编码后列数可控。
- 避坑：某项目对“省份”列（34个取值）用One-Hot编码，导致特征维度骤增，后续改用“地区聚类”（如华北/华东）合并类别，模型性能提升15%。
② 标签编码（适合有序变量）：
- 场景：“学历”（小学＜中学＜大学）、“会员等级”（青铜＜白银＜黄金）等有顺序关系的特征，按顺序映射为0/1/2。
③ 频数编码（适合高基数特征）：
- 原理：用类别出现的频数作为编码值（如“用户ID=10086”出现1000次，编码为1000），某风控模型通过该方法处理“设备ID”特征，既保留了用户活跃度信息，又避免了维度爆炸。

① 检测异常值（箱线图/3σ原则）：
- 箱线图法：某零售项目中，用IQR（四分位距）法则识别“商品单价”的异常值（超过Q3+1.5IQR的高价商品），发现是员工误将“元”输为“角”（如199元写成1990角）。
- 3σ原则：数值远离均值3个标准差视为异常，某医疗数据集通过该方法过滤了“体温=50℃”的错误数据。
② 处理异常值：
- 轻微异常：用截断值限制范围（如将“年龄”上限设为120岁）；
- 严重异常：视为缺失值填充（如用中位数替换）或删除（如某样本20%特征异常，可能是无效数据）。