多组回归中潜在公共群组的自动检测
在多组回归分析里,如何有效检测出群组间潜在的公共聚类是一个关键问题。传统的多水平回归技术存在诸多不足,而新提出的无限多组广义线性模型(iMG - GLM)为解决这一问题提供了有效的方案。
1. 多组回归的背景与问题
多组回归在研究设计中应用广泛,当跨多个群组收集响应 - 协变量数据时,它是常用的方法。不过,传统方法存在明显缺陷。若在合并数据上学习一个共同的回归器,该模型无法识别特定于各个群组的响应效应,因为其假设响应 - 协变量对来自单一的全局分布,但实际情况可能是各群组在统计上并不相同,合并它们并不合适。而分别为每个群组建模,又会导致模型缺乏群组间的共同潜在效应,无法利用群组间的共同模式,不利于信息在群组间的传递,尤其是在许多群组的训练集非常小的情况下。
通过一些实际例子能更好理解这些问题。在临床试验中,为评估某种药物治疗特定疾病的疗效,会给一组人服用新药或安慰剂。在总体层面,疗效可能用单一的正态或泊松混合模型分布建模,但进一步研究可能会发现,不同种族群体(如白种人和亚洲人)对药物的反应可能不同,识别这种跨群组信息能提高回归器的准确性。在股票市场中,预测不同行业(如能源、材料、金融等)的股票未来价值和趋势时,同一行业内的股票往往有共同趋势,一起建模通常比单独捕捉个体趋势更准确。因此,建模跨子群组的潜在公共聚类效应是一个亟待解决的重要问题。
2. 传统多水平回归技术的弱点
最流行的多水平回归技术,如广义线性模型(GLM)和混合模型,存在一定局限性。GLM将线性回归、逻辑回归和泊松回归等不同技术统一起来,其正式定义为:
[f (y; \theta, \psi) = \exp\left(\frac
超级会员免费看
订阅专栏 解锁全文
3065

被折叠的 条评论
为什么被折叠?



