对称排序数据:提升数据预测能力的统计数据挖掘方法
1. 引言
本文将介绍一种新的统计数据挖掘方法——对称排序数据法,并将其纳入良好模型构建实践的简单性和可取性范式中。该方法结合了对称化和变量排序这两个基本统计工具,生成可能具有更高预测能力的新变量。我们将详细介绍史蒂文斯的测量尺度(名义、顺序、区间和比率),定义近似区间尺度,快速回顾探索性数据分析(EDA)的基本元素,最后通过两个示例说明该方法的应用。
2. 测量尺度
史蒂文斯提出了四种数据测量尺度:
1. 名义数据 :是分类标签,如颜色(红、白、蓝)。数据值没有顺序,不能进行算术运算,例如不能计算“红 + 蓝”。
2. 顺序数据 :是有序的数字标签,较高/较低的数字代表尺度上较高/较低的值,但数字之间的间隔不一定相等。
- 例如,在游轮旅行中,将舱位等级(头等、二等、三等、船员)重新编码为顺序变量 CLASS_ ,将年龄(成人、儿童)重新编码为 AGE_ ,并创建 CLASS_ 与 AGE 和 GENDER 的交互变量 CLASS_AGE_ 和 CLASS_GENDER_ 。
- 三个重新编码的单个变量:
- 如果 GENDER = male ,则 GENDER_ = 0
- 如果 GENDER = female
超级会员免费看
订阅专栏 解锁全文
23

被折叠的 条评论
为什么被折叠?



