7、模型部署中的数据处理与特征选择

模型部署中的数据处理与特征选择

在模型部署过程中,为了提升模型的性能和泛化能力,需要对数据进行预处理,并进行特征选择。以下将详细介绍相关内容。

处理极端或异常值

在数据预处理中,对输入变量进行变换是一项常见任务。变换可以改变变量分布的形状,减少异常值或重尾的影响,使输入标准化到相同的范围和尺度,还能减少模型预测的偏差。常见的变量变换类型有两种:
- 数学变换 :如平方、平方根、对数或倒数等。例如,对数(Log、Log10)、平方根和平方根倒数变换会给变量添加一个偏移量,以确保值为正;倒数和倒数平方变换添加偏移量以确保值不为零,避免输入变量值为零时在变换过程中产生缺失值。
- 分箱 :如等宽分箱(桶分箱)、分位数分箱或基于树的分箱等。以年龄变量为例,它原本是一个从 0 到无穷大的连续变量,通过分箱可以将其转换为只取 1 到 4 四个值的新变量。分箱有多种方式,等宽分箱中每个箱的宽度相同,但箱内的频率计数可以不同;分位数分箱则是使每个箱内的观测频率计数一致,但箱的宽度不同。分箱的作用包括对变量的缺失值进行分类、减少异常值对模型的影响以及展示变量之间的非线性关系,而且分箱后的变量比原始数值变量的方差更小。

“最佳”变换

“最佳”并非一种实际的变换,而是一种为区间输入选择最佳变换的方法或过程。在变换节点中,可通过“默认区间输入方法”属性选择“最佳”来应用此方法。除非在元数据中通过数据选项卡或管理变量节点指定了特定的变量变换,否则该方法将应用于进入节点的所有区间输入。更多信息可参考

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值