13、机器学习技术识别标记基因的综合研究

最新推荐文章于 2025-12-19 14:42:59 发布

net55

最新推荐文章于 2025-12-19 14:42:59 发布

阅读量26

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习前沿探秘文章标签：机器学习基因选择非负矩阵分解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/net55/article/details/152441140

机器学习前沿探秘专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习技术识别标记基因的综合研究

1. 引言

在基因表达数据的分析中，面临着“大 N 小 M”的问题，即基因数量（N）远大于样本数量（M），这使得传统统计工具难以发挥作用，并且容易出现过拟合现象。为了解决这些问题，需要采用有效的基因选择方法，并结合监督和无监督技术来识别和提取标记基因。本文将探讨相关的矩阵分解技术、数据处理方法以及基因选择方案。

2. 矩阵分解技术及问题

2.1 非负矩阵分解（NMF）

普通的 NMF 既不能提供唯一的分解，也无法控制分解的稀疏性。针对这些问题，有以下改进方法：
- 局部 NMF（LNMF） ：它可以改善类别发现。
- 非光滑 NMF（nsNMF） ：用于基因表达数据的双聚类，能识别基因表达模块和相关实验条件。
- 最小二乘 NMF（LS - NMF） ：通过最小化重构数据矩阵与原始数据矩阵之间的最小均方误差，纳入基因表达水平的不确定性估计。

2.2 监督与无监督方法结合

将无监督和监督方法结合构建分类器，可对基因表达特征或谱进行分类。但在“大 N 小 M”问题下，需要避免过拟合，构建具有良好泛化能力的分类器。通常，特征选择是解决样本 - 特征困境的关键，目标是识别出具有最大判别能力的最小特征子集，即生物标记物。

3. 数据集介绍

3.1 乳腺癌细胞系 - 骨转移

3.1.1 数据集 1

该数据集对比了 14 个不同转移潜能亚群的转录谱，以识别

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。