在回归分析浅析中篇的文章中,
有人问了一个问题:
案例里的calls数据貌似离散,更符合泊松模型,为啥不采用泊松而采用高斯呢?
确实,在中篇中写道:
在这个例子中我们为了更好地解释变量,使用高斯模型代替更适合的泊松模型。
这句话该怎么理解呢?
一般情况下,拿到研究数据之后,如果我们计划使用GLR工具,首先需要判断使用哪个模型,使用哪个模型是由数据来确定的,当数据都是整数时,究竟是用高斯还是泊松呢?
我们知道,高斯模型需要满足数据正态分布。在Pro中如何看数据是否正态分布呢?
打开Pro,在内容列表中选择包含因变量的原始图层,选择创建图表,点击直方图就可以查看数据的分布形态了。
在图表属性中选择数值变量为Calls
存在变换三种形式,无变换、对数变换以及平方根变换。默认情况下选择无变换。

其中横轴是Calls值,纵轴为Calls的数量。
很显然,当前数据是偏斜的,并不是正态分布的。这种情况下是不建议选择高斯模型,更推荐使用泊松的。
但是很多情况下,高斯的性能或者说拟合度都要好于泊松。(大家可以尝试使用本例中的数据,再结合GLR工具中的泊松模型得出该模型的拟合度)
所以为了向高斯模型靠拢,提高模型精

在ArcGIS Pro中进行回归分析时,选择高斯模型还是泊松模型取决于数据的分布。通过直方图查看数据分布,若非正态分布,通常推荐泊松模型。尽管数据变换有时能使数据接近正态分布,但本例中即使变换,数据仍不符合正态分布,因此高斯模型的适用性存疑。泊松模型的拟合度在某些情况下可能优于高斯模型。文中提供了房价数据作为正态分布的例子,并分享了如何分析GLR工具的结果。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



