公式模型必须处理缺失值
构建评分模型过程中,建模属于流程性的过程,耗时不多,耗费大量精力的点在于缺失值的填充。缺失值填充的合理性直接决定了评分模型的成败。模型按照形式可划分为公式模型与算法模型,不同形式的模型对缺失值的宽容程度不同。
公式模型必须处理缺失值,如果不进行处理,则缺失值对应的该条观测会被排除在建模样本之外,如回归模型、神经网络等都需要进行缺失值的处理。
算法模型对缺失值比较稳健,这类模型会将缺失值单独划分为一类,但算法模型对缺失值的宽容也带来了模型稳定性弱的弊端,如决策树。

补缺原则
一般情况下,缺失值填补的底线是

评分模型的构建过程中,缺失值处理至关重要。公式模型需处理缺失值,否则会导致样本排除;算法模型如决策树能容忍缺失值,但可能影响稳定性。补缺原则包括:高缺失率时放弃补缺,连续变量用均值或中位数填补,分类变量用众数。了解缺失机制,区分随机与非随机缺失。插补方法包括单一插补(如均值插补、热平台插补)和多重插补(回归补缺、MCMC等)。均值插补简单但可能导致数据分布扭曲,热平台插补更为常用。
最低0.47元/天 解锁文章
6526

被折叠的 条评论
为什么被折叠?



