kaggle竞赛——桑坦德银行客户满意度预测（三）

原创

已于 2023-02-10 15:57:57 修改 · 1.4k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#python #深度学习

于 2023-01-18 00:41:18 首次发布

文章详细介绍了在预测Santander银行客户满意度任务中进行的特征工程步骤，包括新特征提取（如计算零值和非零值出现次数）、过滤冗余特征（删除与目标变量相关性低和高相关性的特征）以及数据预处理（如对数变换、独热编码和响应编码）。通过对分类特征进行编码和对数值特征进行对数变换，优化了数据集，为后续的模型训练做好准备。

桑坦德银行客户满意度预测（三）

特征工程

特征工程

1、新特征提取

我们读取一下之前保存的pickle文件并打印出此时的train和test，前面的探索性分析过程我们保留了143个特征，接下来我们还希望在这些特征中提取出一些隐藏的信息。

train = pd.read_pickle('./data/santander-customer-satisfaction/output/train.pkl')
test = pd.read_pickle('./data/santander-customer-satisfaction/output/test.pkl')
X_train = train.copy()
X_test = test.copy()
X_train.shape,X_test.shape

((76020, 144), (75818, 143))

在EDA过程中我们知道了训练集中包含了非常多的0值，那么我们是否可以构造一个特征，他表示每行样本中，所有特征值零或非零出现的次数呢？我们将其命名为no_zeros和no_nonzeros

def add_feature_no_zeros(train=X_train,test = X_test):
    #构造新特征，表示每行样本中143个特征取值为0和非零的出现次数
    col = [k for k in train.columns if k != 'TARGET']
    for df in [train,test]:
        df['no_zeros'] = (df.loc[:,col] != 0).sum(axis=1).values
        df['no_nonzeros'] = (df.loc[:,col] == 0).sum(axis=1).values

除此之外，在样本的所有特征中，每一种前缀的特征都有其独特的分布规律，每行记录每种关键词的所有特征取值为零的个数。因此我们构造新特征，表示每一行样本中每一种关键词前缀的特征取值为零或者非零的出现次数。

def add_feature_no_zeros_keyword(keyword,train=X_train,test=X_test):
    col = [k for k in train.columns if keyword in k]
    # for k in col:
    for df in [train,test]:
        df['no_zeros_'+keyword] = (df.loc[:,col] != 0).sum(axis=1).values
        df['no_nonzeros_'+keyword] = (df.loc[:,col] == 0).sum(axis=1).values

add_feature_no_zeros()
keywords = list(f_keywords.keys())
for k in keywords:
    add_feature_no_zeros_keyword(k)

此时我们再来查看一下训练集和测试集的shape：

X_train.shape,X_test.shape
((76020, 154), (75818, 153))

这样就新增了10个特征

除此之外，我们注意到imp和saldo前缀特征，他们的取值除了0以外，其他的值是一个右偏分布，而且分布比较零散，那么我们将其均值作为一个新特征。
考虑到一个均值对目标变量应该没有影响，构造新特征-获取唯一值个数处于(50,210]之间的’col’特征中取每一种唯一值的情况下，含imp和saldo前缀特征的均值

def average_col(col,features,train=X_train,test=X_test):
    '''
    获取'col'特征中每一种唯一值的情况下feature特征的均值，并令其为新特征
    '''
    for df in [train,test]:
        unique_values = df[col].unique()

        for feature in features:
            #对每一个特征求他在指定特征col的每一个唯一值下的均值
            avg_value = []
            for value in unique_values:
                #对于每一个特征列col，求其每一种唯一值的情况下feature特征的均值
                avg = df.loc[df[col] == value,feature].mean()
                avg_value.append(avg)
            avg_dict = dict(zip(unique_values,avg_value))
            new_col = 'avg_'+ col + '_' + feature

            df[new_col] = np.zeros(df.shape[0])#新建新特征
            for value in unique_values:
                df.loc[df[col]==value,new_col] = avg_dict[value]
#含imp和saldo前缀的所有特征，不包括no_zeros_imp和no_zeros_saldo
features = [i for i in X_train.columns if (('imp' in i) | ('saldo' in i)) & ('no_zeros' not in i)]

#唯一值个数处于(50,210]之间的特征列
columns = [i for i in X_train.columns if (X_train[i].nunique