用于PET和任务fMRI数据建模的稀疏概率并行因子分析
1. 引言
在处理大型数据集时,主成分分析(PCA)及其概率形式(PPCA)是常用的降维工具。PCA通过寻找描述最大方差方向的正交分量来实现降维,但选择保留的分量数量可能存在问题,且即使解释了大部分方差的分量也可能包含难以解释的小权重。稀疏版本的PCA算法通过修剪整个分量或单个权重来解决这些问题。
神经科学数据具有多模态的特点,虽然可以对沿某一模式(如时间)连接的数据执行PCA,以识别另一模式(如受试者)共有的分量,但这种方法会丢弃模式特定的信息。相比之下,并行因子分析(PARAFAC)等多向分解方法能够保留数据的内在结构,并且在满足模型假设的情况下,对噪声的敏感性较低。此外,PARAFAC模型在温和条件下是唯一的(除了缩放和排列),提供了更具解释性的表示。
稀疏多向模型在神经科学等领域具有重要意义。大脑被证明是按网络组织的,对于某些特定任务,如运动任务,大脑的不同区域会活跃,因此可以预期出现空间稀疏模式。当这种类型的任务在多个受试者中执行时,可以通过多向分解利用数据的内在结构。
本文开发了一种具有时间依赖和受试者特定各向同性噪声的全贝叶斯稀疏概率PARAFAC(SP - PARAFAC)模型,并展示了如何通过简单改变稀疏先验在SP - PARAFAC和概率PARAFAC(VB - PARAFAC)之间轻松转换。基于变分贝叶斯推理给出了近似解,并研究了这些模型在PET和基于任务的fMRI数据中的适用性。
2. 概率PCA回顾
概率PCA的初始公式定义了一个模型,将观测值 $x$ 与投影在以 $m$ 为原点的 $K$ 维超平面 $W$ 上的潜在变量 $z$ 相关联