14、基于f - 信息度量的微阵列数据判别基因选择

基于f - 信息度量的微阵列数据判别基因选择

1 引言

高通量技术的广泛应用使得基因表达表型在各种诊断领域的识别和分类中得到了大量应用。在功能基因组学中,基因表达数据的一个重要应用是根据样本的基因表达谱对其进行分类,例如区分癌症样本和正常样本,或者对不同类型或亚型的癌症进行分类。

微阵列基因表达数据集可以用一个表达表 (T = {w_{ij}|i = 1, \cdots, m, j = 1, \cdots, n}) 来表示,其中 (w_{ij}) 是第 (j) 个样本中基因 (A_i) 的测量表达水平,(m) 和 (n) 分别代表基因总数和样本总数。表达表的每一行对应一个特定的基因,每一列对应一个样本。然而,对于大多数基因表达数据,与实验中涉及的大量基因相比,训练样本的数量仍然非常少。例如,结肠癌数据集包含 62 个样本和 2000 个基因,白血病数据集包含 72 个样本和 7129 个基因。由于收集和处理微阵列样本的困难,在许多研究领域,特别是人类数据,样本数量可能仍然较少。当基因数量显著大于样本数量时,有可能发现基因行为与样本类别之间的生物学相关关联。

在大量的基因中,只有一小部分对执行特定任务是有效的。此外,在开发基于基因表达的诊断工具以提供精确、可靠和可解释的结果时,一小部分基因是理想的。通过基因选择结果,仅分析标记基因可以大大降低生物实验和决策的成本。因此,识别一组最相关的基因是基因选择的目标。少量的训练样本和大量的基因使得基因选择成为基于基因表达的分类中一个更相关且具有挑战性的问题,这也是机器学习中的一个重要问题,被称为特征选择。

1.1 特征选择方法

不同的特征选择方法可用于从微阵列数据集中选择判别基因,常见的方法如下表所

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值