平均相关性:评估竞争预测模型和预测变量重要性的统计数据挖掘指标
1. 引言
在数据挖掘和模型评估领域,均值和相关系数是两个重要的统计量。将它们结合使用,可以得到平均相关性这一富有成效的统计数据挖掘指标。平均相关性与相关系数一起,为评估(1)竞争预测模型和(2)定义模型的预测变量的重要性提供了定量标准。
2. 背景
预测模型有两个基本特征:可靠性和有效性,这两个术语常被误解和误用。
- 可靠性 :指模型产生一致结果的能力。对于预测模型而言,关键问题是该模型在预测目的上的可靠程度。一个可靠的预测模型应能产生可重复的预测。由于偶然因素的影响,个体表现会有所波动,但这种波动应在较小范围内。因此,对于一个可靠的预测模型,对同一个体的多次预测结果应相近。模型每次实施后都应监测其结果的一致性。如果模型结果出现退化迹象,则应重新校准(更新回归系数,使用相同变量但采用新数据)或重新训练(更新模型,在原变量基础上添加新变量并使用新数据)。
- 有效性 :指模型在给定标准下测量其预期测量内容的程度(例如,预测模型的标准是小的预测误差)。一个有效模型的必要元素是具有高可靠性。如果模型的可靠性低,其有效性也会降低。可靠性是有效模型的必要但不充分条件。因此,一个预测模型在给定时间内预测高效(精确且准确)时才是有效的。
模型有效性还有另外两个方面:
- 表面有效性 :用于描述模型“看起来会有效”的概念,是对模型用户有价值的主观标准。它能让用户,特别是那些可能没有构建模型的专业背景但有模型实际应用知识的用户,了解他们对模型的期望。如果模型看起来不符合所需目标
超级会员免费看
订阅专栏 解锁全文

1万+

被折叠的 条评论
为什么被折叠?



