31、特征处理:转换、构建与选择

特征处理:转换、构建与选择

在机器学习中,特征处理是一个关键环节,它涉及到对原始特征的转换、构建新特征以及选择合适的特征子集。下面将详细介绍特征处理的相关内容。

1. 监督离散化与已有算法的相似性

监督离散化的自上而下和自下而上方法与之前的算法有相似之处。递归划分与决策树训练算法有分治的共性,而通过合并连续区间的聚合离散化与层次聚合聚类相关。并且,大多数方法能轻松处理多分类问题,不局限于二分类。

2. 特征归一化与校准
2.1 特征归一化

特征归一化旨在调整定量特征的尺度,或为有序、分类特征添加尺度。无监督的尺度调整通常称为归一化,而校准则是考虑(通常为二分类)类别标签的有监督方法。

归一化常用于消除不同定量特征在不同尺度上的影响。若特征近似正态分布,可通过均值中心化并除以标准差将其转换为 z 分数;在某些情况下,除以方差更方便。若不假设正态分布,可使用中位数中心化并除以四分位距。

有时,归一化是指将特征表示在 [0,1] 尺度上。若已知特征的最高值 h 和最低值 l,可使用线性缩放 f →(f - l)/(h - l);若能假设特征的特定分布,可进行相应变换使特征值大多落在特定范围内。

2.2 特征校准

特征校准是一种有监督的特征变换,为任意特征添加携带类别信息的有意义尺度。它有诸多优点,如使需要尺度的模型(如线性分类器)能处理分类和有序特征,让学习算法可选择如何处理特征。

在二分类场景下,校准特征的自然尺度是正类的后验概率。对于分类特征,可通过训练集收集相对频率进行校准。例如,预测某人是否患有糖尿病,已知肥胖人群中每 18 人

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值