用于识别标记基因的机器学习技术
在生物信息学领域,识别标记基因对于疾病诊断、治疗方案制定等具有重要意义。本文将介绍基于矩阵分解技术的基因选择方法、特征选择方案以及分类方案。
1. 基于矩阵分解技术的基因选择
该技术探索将给定数据矩阵进行数据驱动的因式分解,分解为具有特定属性的矩阵乘积。这些矩阵可用于构建分类器,该分类器能衡量个体分解中矩阵之间的相似度。
2. 特征选择方案
2.1 数据表示与预处理
基因表达水平由一个 $(N × M)$ 的数据矩阵 $X = [x_{ 1} \cdots x_{ M}]$ 表示,其中每一列 $x_{*m}$ 代表 $M$ 次实验中某一次所有基因的表达水平。使用非负矩阵分解(NMF)时,会寻求 $X = WH$ 的分解形式,当然这种分解不是唯一的,需要进一步明确。$W$ 的列称为元基因,$H$ 的行称为元实验。需要注意的是,数据矩阵是非方阵,$N \approx 10^3 \cdot M$,因此在应用主成分分析(PCA)和独立成分分析(ICA)等技术时,需要对数据矩阵进行转置。ICA 遵循数据模型 $X^T = AS$,其中矩阵 $A$ 的列代表新表示的基向量,可称为特征轮廓,而 $S$ 的尽可能独立的行称为表达模式。
2.2 基于 ICA - JADE 的特征提取
$M × N$ 数据矩阵 $X^T$ 的列向量 $x_{*n}$($n = 1, \cdots, N$)被用作联合近似特征矩阵对角化(JADE)算法的输入。JADE 是一种近乎精确的代数算法,专注于表达模式内表达水平分布的四阶累积量。与随机算法(如 fastICA)相比,J
超级会员免费看
订阅专栏 解锁全文
1346

被折叠的 条评论
为什么被折叠?



