测量样本质量的Copula差异方法
现代贝叶斯机器学习中广泛使用的可扩展马尔可夫链蒙特卡洛(MCMC)算法(如随机梯度朗之万动力学SGLD)为追求计算速度而牺牲了渐近精确性,这造成了一个关键的诊断缺口:当应用于有偏采样器时,传统的样本质量测量方法会完全失效。虽然基于Stein的强大诊断方法可以检测分布不匹配,但它们无法直接评估依赖结构——而依赖结构通常是多变量问题中的主要推断目标。
本文引入Copula差异(CD),这是一种基于原理且计算高效的诊断方法,利用Sklar定理来隔离和量化样本依赖结构的保真度,而不受其边缘分布的影响。理论框架提供了首个专门为近似推理时代设计的结构感知诊断方法。
实证研究表明,基于矩的CD在有偏MCMC的超参数选择中显著优于有效样本量等标准诊断方法,能够正确识别传统方法失效时的最优配置。此外,基于最大似然估计的稳健变体可以检测尾部依赖中微妙但关键的不匹配——这些不匹配对于基于秩相关的方法仍然不可见,能够区分具有相同Kendall’s tau但极端事件行为根本不同的样本。
与现有Stein差异相比,CD的计算开销低数个数量级,不仅为MCMC实践者提供即时实用价值,还为下一代结构感知样本质量评估奠定了理论基础。
主题分类:
机器学习(stat.ML);机器学习(cs.LG)
MSC分类:
62H05, 62H12, 65C05, 68T05
引用信息:
arXiv:2507.21434 [stat.ML]
提交历史:
2025年7月29日提交
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

729

被折叠的 条评论
为什么被折叠?



