特征处理:转换、构建与选择
在机器学习中,特征处理是一个关键环节,它涉及到对原始特征的转换、构建新特征以及选择合适的特征子集。下面将详细介绍特征处理的相关内容。
1. 监督离散化与已有算法的相似性
监督离散化的自上而下和自下而上方法与之前的算法有相似之处。递归划分与决策树训练算法有分治的共性,而通过合并连续区间的聚合离散化与层次聚合聚类相关。并且,大多数方法能轻松处理多分类问题,不局限于二分类。
2. 特征归一化与校准
2.1 特征归一化
特征归一化旨在调整定量特征的尺度,或为有序、分类特征添加尺度。无监督的尺度调整通常称为归一化,而校准则是考虑(通常为二分类)类别标签的有监督方法。
归一化常用于消除不同定量特征在不同尺度上的影响。若特征近似正态分布,可通过均值中心化并除以标准差将其转换为 z 分数;在某些情况下,除以方差更方便。若不假设正态分布,可使用中位数中心化并除以四分位距。
有时,归一化是指将特征表示在 [0,1] 尺度上。若已知特征的最高值 h 和最低值 l,可使用线性缩放 f →(f - l)/(h - l);若能假设特征的特定分布,可进行相应变换使特征值大多落在特定范围内。
2.2 特征校准
特征校准是一种有监督的特征变换,为任意特征添加携带类别信息的有意义尺度。它有诸多优点,如使需要尺度的模型(如线性分类器)能处理分类和有序特征,让学习算法可选择如何处理特征。
在二分类场景下,校准特征的自然尺度是正类的后验概率。对于分类特征,可通过训练集收集相对频率进行校准。例如,预测某人是否患有糖尿病,已知肥胖人群中每 18 人
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



