基因表达模式聚类分析与视觉注意力模型
一、基于PCA和SOMs的基因表达模式聚类分析
1.1 确定聚类数量
传统的主成分分析(PCA)常用于捕捉原始数据的聚类结构以提高聚类分析性能。在我们提出的算法中,PCA方法用于确定自组织映射(SOMs)聚类分析中的聚类数量K。
PCA能反映所有变量(基因)的分布,因为所有变量在主成分方向上有最大投影长度,且相应的方差能表示每个主成分方向上的信息大小。通过PCA处理可以识别微阵列数据中基因表达模式的分布,但不够详细。当给定置信截断值Θ时,基因表达模式的数量K可通过计算方差大于截断值Θ的数量来确定:
[K = \sum_{i=1}^{N} \Gamma_i]
其中N是主成分的数量,
[\Gamma_i =
\begin{cases}
1, & Var_i \geq \Theta \
0, & otherwise
\end{cases}]
1.2 PCA - SOMs聚类分析算法
基因聚类分析的目标是提取微阵列数据中基因表达水平的基本模式。已有多种聚类分析方法,如层次聚类、贝叶斯聚类、k - 均值聚类和自组织映射等。相比之下,SOMs具有更好的计算特性,更适合基因表达模式的聚类分析。
我们的算法采用基于SOMs的聚类分析方法(SOMs - CA),但该方法应在PCA的指导下应用。具体步骤如下:
1. 初始化参数 :初始化置信截断参数Θ和停止条件参数τ。
2. 数据预处理 :对原始微阵列数据进行预处理,
超级会员免费看
订阅专栏 解锁全文
78

被折叠的 条评论
为什么被折叠?



