图片来源(Nature Methods)
Data denoising with transfer learning in single-cell transcriptomics
摘要
单细胞转录组测序(single-cell RNA-seq, scRNA-seq)数据有高噪音和稀疏的特点。原文作者展示了跨数据集的迁移学习可显著提高数据的质量。通过将深度自动编码器与贝叶斯模型相结合,原文开发的SAVER-X软件可从不同实验室、不同条件和不同物种的数据中提取可迁移的基因关系,以对新的目标数据集进行降噪。
前言
在scRNA-seq的研究中,技术噪音让细胞状态之间的精确识别模糊化,而且低表达基因不能被准确量化。当测序深度较低或感兴趣的细胞类型较少时,现有的降噪方法往往表现不佳;而且这些方法也忽略了公共的数据集,这些公共数据集可能包含有助于降噪的相关信息。现在逐渐建立了小鼠的细胞图谱,很快就会有人体每个器官的详细图谱。可公开利用的scRNA-seq数据集包含与新产生数据相关的细胞类型和基因特征信息。然而,目前还不清楚如何跨平台、跨物种、跨组织地借用信息。此外,这种迁移学习方法不能引入bias或迫使新数据失去其独特的特征。
结果
原文作者开发了一种新的降噪方SAVER-X,该方法通过表达复原利用外部数据进行单细胞分析;它将贝叶斯分层模型与一个可预处理的深度自动编码器相结合。尽管神经网络已经成为了其他单细胞方法的基础,但现有的工具只对周围的数据起作用。此外,本文中广泛的基准测试和数据强调,除了SAVER-X软件的前身SAVER之外,大多数方法对真实基因表达都产生有偏估计,并引入了特殊的基因相关性。SAVER-X是建立在SAVER软件的核心模型基础上,结合自动编码器后端