机器学习在基因组学中的常见使用陷阱
Nature Reviews Genetics| 在基因组学中应用机器学习的常见陷阱

原文地址:https://www.nature.com/articles/s41576-021-00434-9
1. 摘要
如今,遗传(genetic)、表观基因组学(epigenomic)、转录组学(transcriptomic)、化学信息学(cheminformatic)和蛋白质组学(proteomic)数据的规模,加上易于使用的机器学习(ML)工具包,推动了监督学习在基因组学研究中的应用。
然而,ML软件中 统计模型(statistical models) 和 性能评估(performance evaluations) 背后的假设在 生物系统(biological systems) `中常常不
基因组学中的机器学习陷阱:理解与应对
本文探讨了在基因组学中应用机器学习时遇到的五个常见问题:分布差异、相关例子、混杂、数据预处理泄露和类别不平衡。这些问题可能导致模型性能的过高估计和误导性的生物学解释。为解决这些问题,作者提出了相应的解决方案,包括调整数据处理方法、识别和处理依赖关系、考虑混杂因素以及平衡数据集。文章强调了在基因组学中应用机器学习时,正确评估和调整模型的重要性。
订阅专栏 解锁全文
80

被折叠的 条评论
为什么被折叠?



