基因选择与多任务药物生物活性分类新方法
基因选择在时间序列基因表达数据中的应用
在基因研究领域,从大量基因中筛选出有意义的基因是一项关键任务。在时间序列基因表达数据的研究中,最终筛选出的基因数量相对较少。这些被选中的基因具有统计学意义,并且更有可能受到外部刺激的影响,比如药物的作用。
由于每个微阵列只是生物过程的一个瞬间快照,而生物过程本身是动态变化的,因此时间序列选择方法有助于我们从这些快照中追踪生物过程的动态变化。这些被选中的基因可以作为特征,应用于不同的分类和回归模型,用于疾病诊断等方面。
有一种新颖的无监督方法用于时间序列基因表达数据中的基因选择。该方法的流程基于配对t检验的统计测试和基于交换随机化的统计显著性测试的结合。研究人员在两个数据集上进行了实验,一个是公开可用的小鼠T细胞分化数据集,另一个是石棉暴露数据集。实验结果表明,在这两个数据集中,基因数量都显著减少。该方法的一个主要优势在于其无监督的特性,这意味着它不需要昂贵且难以获取的类别标签,就能实现基因数量的大幅减少。
多任务药物生物活性分类的背景与挑战
分子分类旨在预测感兴趣的生物活性的存在与否,统计学和机器学习中的多种方法都为这一任务提供了帮助。特别是核方法,已成为处理化学物质非线性特性的有效手段。然而,专注于单个目标变量的分类方法可能不太适合需要处理大量目标细胞系的药物筛选应用。
此前,有研究提出了一种多任务(或多标签)学习方法,用于根据药物分子对一组癌细胞系的活性进行分类。该方法使用的多标签分类器是最大边际条件随机场(MMCRF),它依赖于一种将任务集合连接在一起的图结构,从而将多任务学习问题转化为图标签问题。在之前的研究中,图是从关于癌细胞系
超级会员免费看
订阅专栏 解锁全文
689

被折叠的 条评论
为什么被折叠?



