微阵列数据处理:缺失值估计与特征子集选择
微阵列数据缺失值估计
背景与问题提出
微阵列技术能够检测多种条件下数千个基因的表达水平,在众多生物学研究中得到了成功应用。然而,微阵列数据中常常存在缺失值,这可能是由于分辨率不足、玻片划痕、灰尘或杂交错误等原因导致的。许多多元分析方法,如支持向量机(SVMs)、主成分分析(PCA)和奇异值分解(SVD),难以直接应用于含有缺失值的数据。重复实验虽然是一种解决方案,但由于经济原因和生物材料的限制,往往不可行。因此,估计这些缺失值是基因表达数据分析中重要的预处理步骤。
现有方法
目前存在一些估计缺失值的方法:
- 简单方法 :用零(ZEROimpute)或行(或基因)/列(或样本)平均值(ROWaverage)填充缺失值。
- 高级方法 :Troyanskaya 等人提出了基于 SVD 的方法(SVDimpute)和加权 k - 最近邻(KNNimpute);近期还引入了贝叶斯 PCA(BPCA)、最小二乘插补(LSimpute)和局部最小二乘插补(LLSimpute)等方法。
偏最小二乘回归(PLS)
偏最小二乘回归(PLS)是一种新颖的多元数据分析方法,在化学计量学领域广泛应用。与普通多元线性回归相比,PLS 具有许多优势,例如可以避免解释变量共线性对建模的有害影响,以及在观测值数量少于解释变量数量时进行回归等。
PLSimpute 方法
本文提出了一种基于偏最小二乘回归的缺失值估计方法,称为 PLSimpute。该方法主要包括以
微阵列数据缺失值与特征选择
超级会员免费看
订阅专栏 解锁全文
49

被折叠的 条评论
为什么被折叠?



