Toward a gold standard for benchmarking gene set enrichment analysis
朝着基因集富集分析基准评估的金标准迈进
基因集富集分析(GSEA)是一种广泛应用于高通量基因表达数据的方法,用于确定在不同生物学条件下表达的基因集是否富集。然而,由于缺乏标准化的基准数据集和评估方法,GSEA的结果在不同研究中难以比较和解释。本文提出了一种GSEA基准协议,旨在为GSEA方法的开发和评估提供一个标准化的基准。该协议包括使用模拟数据集和真实数据集进行评估,以及评估GSEA方法的准确性、灵敏度、特异性和可重复性。作者还讨论了GSEA方法的局限性和未来的发展方向。该基准协议将有助于推动GSEA方法的发展,并促进不同研究之间的比较和解释。
动机:尽管基因集富集分析已成为高通量基因表达数据分析的重要组成部分,但对富集方法的评估仍然是基本和临时性的。在缺乏合适的金标准的情况下,评估通常限于选择的数据集,并依靠对结果富集基因集的相关性进行生物学推理。
结果:作者开发了一个可扩展的框架,用于基于定义的适用性、基因集优先级和相关过程检测的富集方法可重复性评估。该框架包含一个经过策划的综合数据库,其中包含了75个表达数据集,涉及42种人类疾病。该数据库包括微阵列和RNA-seq测量数据,并且每个数据集都与相应疾病的预编译GO/KEGG相关性排名相关联。作者对10种主要的富集方法进行了全面评估,发现了