支持模型变更方法详解
1. 支持模型变更问题的背景与动机
在数据分析中,我们常常会遇到这样的情况:观测数据的尺度与我们期望进行推断的尺度不同,而且不同尺度之间的映射并非规则的。这就是“支持模型变更”问题产生的背景。
例如,人口统计数据可能按邮政编码提供,但我们可能对特定城市街区的信息感兴趣;或者我们想将人口统计数据与按投票选区报告的投票数据关联起来,而这些选区与邮政编码可能毫无关系。如何利用现有的数据在不同尺度上得出有效的结论,这便是支持模型变更问题的主要动机。
另外,将多尺度的信息进行整合也是该问题的一个重要动机。比如,尝试将个人医疗记录信息与更大尺度上测量的污染数据相结合。而且,这些方法还需要处理尺度非嵌套的情况,像邮政编码和投票选区的例子。
尺度的选择以及改变尺度的方法对分析结果有着重大影响。以下是两个典型例子:
- Gehlke和Biehl(1934)研究了克利夫兰男性青少年犯罪率与每月租金中位数之间的关系。他们发现,这两个变量之间的相关系数取决于计算相关系数时使用的是单个普查区的值还是普查区的聚合组的值。特别是当相邻的普查区合并形成局部集群时,计算出的相关系数比使用单个普查区时更大,但随机分组合并普查区对计算出的相关系数没有影响。后来一些作者也对这一现象进行了深入研究。
- Openshaw和Taylor(1979)研究了爱荷华州共和党选民和老年选民百分比之间的相关性。他们从爱荷华州99个县的数据开始,考虑了所有可能的县聚合方式,并计算了每种可能数据集的相关性。结果发现,通过创造性的聚合,原始数据可以得出几乎任何可能的答案。因此,开发一种与真实底层过程一致的聚合(或细化尺度)方法非常重要,这种方法要能在所有尺度上准确反映该过程。
超级会员免费看
订阅专栏 解锁全文
7721

被折叠的 条评论
为什么被折叠?



