机器学习算法在癌症数据中的应用
1. 引言
随着癌症发病率的不断上升,癌症类型和亚型的分类变得愈发重要,癌症仍是全球主要的死因。识别癌症的新类别(亚型)有助于制定更有效的治疗策略、降低毒性并提高患者的生存率。传统上,肿瘤的分类基于组织类型、原发部位和/或形态,这往往具有很强的主观性。而且,仅基于肿瘤组织学的治疗方法效果不佳,因为不同肿瘤对同一药物治疗的反应可能不同。
一种有前景的替代方法是根据疾病相关的多个基因的表达水平对肿瘤进行分类。尽管人类基因组约有20,000个蛋白质编码基因,但并非所有基因都会在包括细胞生长、代谢、肿瘤发生等任何单一生物过程中活跃或表达。这就需要识别可能导致恶性细胞增殖的相关基因。
基因表达数据的分析面临诸多挑战,如数据复杂、噪声大、维度高。机器学习算法在处理这些问题上有一定作用,可大致分为监督、无监督和半监督方法。本文将概述机器学习算法在分析基因表达数据方面的发展,介绍一些常用的特征选择和亚型分类算法。
2. 特征选择方法概述
特征选择方法在过去50年已应用于多个领域,可分为过滤、包装和嵌入式方法:
- 过滤方法 :基于特征在统计测试中的得分与结果变量的相关性进行特征选择,如皮尔逊相关、卡方检验或线性判别分析。这些方法独立于机器学习算法,易于实现。
- 包装方法 :在特征子集上构建模型并评估其性能,为使模型达到最佳性能,会从子集中添加或移除特征,这本质上是一个寻找最佳特征集的搜索问题,计算量比过滤方法大。
- 嵌入式方法 :结合了过滤和包装方法的特点,通常包含在具有内置
超级会员免费看
订阅专栏 解锁全文
2539

被折叠的 条评论
为什么被折叠?



