微阵列中的双标图与偏最小二乘回归及基因调控网络推理
1. 数据分析方法概述
在基因研究中,有两种重要的数据分析方法:主成分分析(PCA)相关的可视化方法和偏最小二乘回归(PLS)。
- PCA 投影 :可以将在相同对象上测量的一组新变量投影到 X 矩阵的前两个主成分空间中。通过计算 U′Y 来实现,其中 Y 是一个 n × q 的新 q 变量矩阵。得到的矩阵是 r × q 的,包含 Y 变量在 X 的主成分空间中的被动投影。为了便于比较,在绘图前需要按照 Venables 和 Ripley 的建议,用 √n 对该矩阵进行适当缩放。
- PLS 回归 :是一种评估两组不同变量(X 和 Y)之间相互关系的技术。与主成分回归不同,主成分回归使用 X 的主成分来预测 Y,隐含假设与 X 相关的主成分也与 Y 相关;而 PLS 回归寻找能够同时分解 X 和 Y 的潜在成分,且这些成分能使 X 和 Y 之间的协方差最大化。具体来说,X 和 Y 可分解为:
- (X = T P^T)
- (Y = T Q^T)
其中 T 是共同得分矩阵,其列代表潜在向量;P 和 Q 分别是 p × r 和 q × r 的载荷矩阵,p 和 q 分别是预测变量和响应变量的数量,r 是估计的成分数量。这些载荷表示每个变量与每个潜在成分之间的关联,对于理解哪些变量对估计的潜在成分有贡献非常有用。
2. 数据集描述
用于分析的数据集可在 ArrayExpress 网站上公开获取,它由 40
超级会员免费看
订阅专栏 解锁全文
16

被折叠的 条评论
为什么被折叠?



