利用ICA去除合并微阵列数据集的批次效应
1. 减少批次效应的提议方法
在合并微阵列数据集时,为了去除批次效应,我们提出使用时空独立成分分析(ICA)方法。将聚合数据集进行因式分解后,移除与子数据集存在一定相关性的成分,有望得到一个基本消除主要批次效应的最终数据集。矩阵因式分解方法的优势在于,被移除的成分具有可解释性,能够轻松验证它们是否与我们关注的生物信息相关。
此前,有研究使用奇异值分解(SVD)来模拟批次效应,但ICA在模拟不同变异来源方面表现更优,因此我们在此提出基于ICA的方法。下面先介绍时空ICA,再说明如何利用它对数据集进行归一化处理。
1.1 时空独立成分分析
我们把聚合数据集视为一个基因 - 样本矩阵X,其中Xi,j表示样本j中基因i的值。对矩阵X应用ICA方法,可得到如下分解:
[X \approx AB^T = \sum_{k=1}^{K} A_{:,k}B_{:,k}^T]
其中,成分A:,k可理解为成分k的基因激活模式,成分B:,k则是该模式在样本中的权重。
在计算此分解时,会面临一个问题:是应最大化A的列之间的独立性,还是B的列之间的独立性。基因间的独立性意味着激活模式应尽可能相互独立;样本间的独立性则表示赋予激活模式的权重应尽可能相互独立。过去,由于基因数据集中矩阵X的形状较为狭长,文献中更倾向于基因间的独立性。然而,聚合子数据集使得样本数量更为合理,有研究表明,对基因、样本或两者同时施加独立性条件,都能取得良好效果。鉴于这两种选择在理论上都合理,我们采用时空ICA方法,该方法引入了一个权衡参数,便于适应不同的选择。
下面介绍我们用于从数据矩阵X ∈ Rp×n生成矩阵
超级会员免费看
订阅专栏 解锁全文
23

被折叠的 条评论
为什么被折叠?



