宏基因组聚类的双向贝叶斯混合模型与CRiSPy-CUDA工具
双向贝叶斯混合模型在宏基因组聚类中的应用
在宏基因组学中,为了对序列进行聚类分析,提出了一种双向贝叶斯混合模型。对于每个父节点的配置 $p_{aj}$,会得到一个独立的多项分布问题,相关参数如下:
- $\Theta = { \theta_m : \forall m \in 1, .., M }$
- $\theta_m = { \theta_{m,c}|p_{aj} : \forall p_{aj} \in { p_{a1}^j, p_{a2}^j, .., p_{ap}^j } }$
- $Mult(\theta_{m,c}|p_{aj}) = \theta_{m,c}|p_{aj} = { \theta_{m,ck}|p_{aj} : \forall c_k \in (A, C, T, G) }$
数据的似然函数为:
$p(x_i|y_i = m) = p(x_i|\theta_m) = \sum_{p_{aj}} \sum_{c_k \in (A,C,T,G)} \theta_{m,ck|p_{aj}}^{N_i(c_k|p_{aj})}$
在实验中,由于宏基因组学缺乏标准数据集,使用Metasim模拟合成宏基因组。生成了超过450个数据集,读取长度在50到1000个碱基对之间,且具有不同的丰度比。算法用Matlab实现,空间和时间复杂度与读取数和物种数呈线性关系,与搜索空间的维数呈二次关系。
为评估方法的鲁棒性,通过平均二核苷酸相对丰度 $\delta^ (f, g)$ 对双物种数据集进行排序:
$\delta^ (f
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



