14、用于识别标记基因的机器学习技术

用于识别标记基因的机器学习技术

在生物信息学领域,识别标记基因对于疾病诊断、治疗方案制定等具有重要意义。本文将介绍基于矩阵分解技术的基因选择方法、特征选择方案以及分类方案。

1. 基于矩阵分解技术的基因选择

该技术探索将给定数据矩阵进行数据驱动的因式分解,分解为具有特定属性的矩阵乘积。这些矩阵可用于构建分类器,该分类器能衡量个体分解中矩阵之间的相似度。

2. 特征选择方案

2.1 数据表示与预处理

基因表达水平由一个 $(N × M)$ 的数据矩阵 $X = [x_{ 1} \cdots x_{ M}]$ 表示,其中每一列 $x_{*m}$ 代表 $M$ 次实验中某一次所有基因的表达水平。使用非负矩阵分解(NMF)时,会寻求 $X = WH$ 的分解形式,当然这种分解不是唯一的,需要进一步明确。$W$ 的列称为元基因,$H$ 的行称为元实验。需要注意的是,数据矩阵是非方阵,$N \approx 10^3 \cdot M$,因此在应用主成分分析(PCA)和独立成分分析(ICA)等技术时,需要对数据矩阵进行转置。ICA 遵循数据模型 $X^T = AS$,其中矩阵 $A$ 的列代表新表示的基向量,可称为特征轮廓,而 $S$ 的尽可能独立的行称为表达模式。

2.2 基于 ICA - JADE 的特征提取

$M × N$ 数据矩阵 $X^T$ 的列向量 $x_{*n}$($n = 1, \cdots, N$)被用作联合近似特征矩阵对角化(JADE)算法的输入。JADE 是一种近乎精确的代数算法,专注于表达模式内表达水平分布的四阶累积量。与随机算法(如 fastICA)相比,J

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值