现代基于基因表达的癌症检测与诊断技术综述
癌症是导致死亡的主要原因之一,传统方法往往使大多数癌症患者在晚期才被诊断出来。基因表达微阵列技术可用于早期检测和诊断大多数类型的癌症,还能让研究人员同时分析数千个基因。为了从基因表达数据中获取知识,需要数据挖掘方法。下面将详细介绍相关技术。
1. 癌症检测与诊断的基本概念
基因表达是指基因信息用于合成功能性基因产物的过程,这些产物通常是蛋白质,具有激素和酶等不同功能,而非蛋白质编码基因如转运RNA(tRNA)或小核RNA(snRNA)则是功能性RNA产物。
临床和病理信息在癌症检测和诊断中可能不完整或具有误导性,而微阵列技术可使癌症检测和诊断更加客观和准确,还能为临床医生选择最合适的治疗方式提供信息。将基于基因表达的癌症检测和诊断视为分类问题可追溯到对人类急性白血病的分类研究。但实际中,输入大、样本小的分类问题具有挑战性,且容易出现过拟合,微阵列技术的主要挑战是维度灾难,因为它包含大量基因。
为缓解这一限制,研究人员提出了多种特征(基因)选择技术来选择最显著的基因,并研究了多种统计和机器学习分类方法。
癌症检测和诊断基于基因表达的过程通常包括以下几个阶段:
1. 表示方法 :基因表达以因子表示形式形成,即数据集以属性值向量表示,并输出离散值。
2. 特征选择 :使用各种特征选择策略选择最显著的基因。
3. 生成模型 :将上一阶段选择的基因作为统计或机器学习分类器的输入来生成模型,此步骤还包括训练和测试数据的制定方法,如交叉验证、k折交叉验证和留一法交叉验证。
超级会员免费看
订阅专栏 解锁全文
30

被折叠的 条评论
为什么被折叠?



