微阵列中的双标图与偏最小二乘回归分析
在基因研究领域,理解不同基因之间的关联对于揭示生物过程的机制至关重要。本文将介绍两种重要的数据分析方法——主成分分析(PCA)相关的可视化方法和偏最小二乘回归(PLS),并通过具体的数据集展示它们在分析基因表达关系中的应用。
1. 数据分析方法
- 变量投影 :可以通过计算 $U’Y$,将在相同对象上测量的一组新变量投影到 $X$ 矩阵的前两个主成分空间上,其中 $Y$ 是一个 $n×q$ 的新变量矩阵。得到的矩阵是 $r×q$ 的,包含了 $Y$ 变量在 $X$ 主成分空间上的被动投影。为了便于比较,在绘制图形之前,需要按照 Venables 和 Ripley 的建议,用 $\sqrt{n}$ 对该矩阵进行适当缩放。
- 偏最小二乘回归 :这是一种评估两组不同大变量集 $X$ 和 $Y$ 之间相互关系的有效技术。与主成分回归不同,主成分回归使用 $X$ 的主成分来预测 $Y$,隐含地假设与 $X$ 相关的主成分也与 $Y$ 相关。而 PLS 回归则寻找能够同时分解 $X$ 和 $Y$ 的潜在成分,并使这些成分最大化 $X$ 和 $Y$ 之间的协方差。
具体来说,$X$ 和 $Y$ 可以分解为:
$X = T P^T$
$Y = T Q^T$
其中,$T$ 是公共得分矩阵,其列代表潜在向量;$P$ 和 $Q$ 分别是 $p×r$ 和 $q×r$ 的载荷矩阵,$p$ 和 $q$ 分别是预测变量和响应变量的数量,$r$ 是估计的成分数量。这些载荷表示每个变量与每个潜在成分之间的关联,对于理
超级会员免费看
订阅专栏 解锁全文
18

被折叠的 条评论
为什么被折叠?



