使用LightGBM和FLAML解决实际数据科学问题
1. 数据清洗与探索性数据分析
1.1 数据清洗
在处理实际数据时,数据清洗是至关重要的一步。以下是一些常见的数据清洗操作示例:
import pandas as pd
import numpy as np
# 处理年龄和银行账户数量的异常值
frame.loc[frame["Age"] > 65, "Age"] = 65
frame.loc[frame["Num_Bank_Accounts"] > 1000, "Num_Bank_Accounts"] = 1000
# 处理月余额的异常值
frame.loc[frame["Monthly_Balance"] > 1e6, "Monthly_Balance"] = np.nan
清洗完数据后,我们可以验证所有特征是否具有正确的类型,以及缺失值是否已得到处理:
train_df.info()
train_df.isnull().sum()
train_df[train_df.duplicated()]
1.2 探索性数据分析(EDA)
完成数据清洗后,我们可以对干净的数据集进行更深入的探索性分析。以下是一些在EDA过程中发现的模式:
- 客户年龄分布 :
import seaborn a
超级会员免费看
订阅专栏 解锁全文
1364

被折叠的 条评论
为什么被折叠?



