模型部署中的数据处理与特征选择
在模型部署过程中,为了提升模型的性能和泛化能力,需要对数据进行预处理,并进行特征选择。以下将详细介绍相关内容。
处理极端或异常值
在数据预处理中,对输入变量进行变换是一项常见任务。变换可以改变变量分布的形状,减少异常值或重尾的影响,使输入标准化到相同的范围和尺度,还能减少模型预测的偏差。常见的变量变换类型有两种:
- 数学变换 :如平方、平方根、对数或倒数等。例如,对数(Log、Log10)、平方根和平方根倒数变换会给变量添加一个偏移量,以确保值为正;倒数和倒数平方变换添加偏移量以确保值不为零,避免输入变量值为零时在变换过程中产生缺失值。
- 分箱 :如等宽分箱(桶分箱)、分位数分箱或基于树的分箱等。以年龄变量为例,它原本是一个从 0 到无穷大的连续变量,通过分箱可以将其转换为只取 1 到 4 四个值的新变量。分箱有多种方式,等宽分箱中每个箱的宽度相同,但箱内的频率计数可以不同;分位数分箱则是使每个箱内的观测频率计数一致,但箱的宽度不同。分箱的作用包括对变量的缺失值进行分类、减少异常值对模型的影响以及展示变量之间的非线性关系,而且分箱后的变量比原始数值变量的方差更小。
“最佳”变换
“最佳”并非一种实际的变换,而是一种为区间输入选择最佳变换的方法或过程。在变换节点中,可通过“默认区间输入方法”属性选择“最佳”来应用此方法。除非在元数据中通过数据选项卡或管理变量节点指定了特定的变量变换,否则该方法将应用于进入节点的所有区间输入。更多信息可参考
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



