机器学习技术识别标记基因的综合研究
1. 引言
在基因表达数据的分析中,面临着“大 N 小 M”的问题,即基因数量(N)远大于样本数量(M),这使得传统统计工具难以发挥作用,并且容易出现过拟合现象。为了解决这些问题,需要采用有效的基因选择方法,并结合监督和无监督技术来识别和提取标记基因。本文将探讨相关的矩阵分解技术、数据处理方法以及基因选择方案。
2. 矩阵分解技术及问题
2.1 非负矩阵分解(NMF)
普通的 NMF 既不能提供唯一的分解,也无法控制分解的稀疏性。针对这些问题,有以下改进方法:
- 局部 NMF(LNMF) :它可以改善类别发现。
- 非光滑 NMF(nsNMF) :用于基因表达数据的双聚类,能识别基因表达模块和相关实验条件。
- 最小二乘 NMF(LS - NMF) :通过最小化重构数据矩阵与原始数据矩阵之间的最小均方误差,纳入基因表达水平的不确定性估计。
2.2 监督与无监督方法结合
将无监督和监督方法结合构建分类器,可对基因表达特征或谱进行分类。但在“大 N 小 M”问题下,需要避免过拟合,构建具有良好泛化能力的分类器。通常,特征选择是解决样本 - 特征困境的关键,目标是识别出具有最大判别能力的最小特征子集,即生物标记物。
3. 数据集介绍
3.1 乳腺癌细胞系 - 骨转移
3.1.1 数据集 1
该数据集对比了 14 个不同转移潜能亚群的转录谱,以识别
超级会员免费看
订阅专栏 解锁全文
1348

被折叠的 条评论
为什么被折叠?



