Nature Methods | 新软件SAVER-X可对单细胞转录组学数据进行有效降噪

最新推荐文章于 2025-04-05 08:33:35 发布

原创

最新推荐文章于 2025-04-05 08:33:35 发布 · 1.1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#测序 #生物信息学 #计算机 #统计学 #生物学

SAVER-X是利用迁移学习进行单细胞转录组数据降噪的新软件，通过结合深度自动编码器与贝叶斯模型，提升scRNA-seq数据质量。该方法在跨物种、跨平台数据中提取基因关系，提高降噪效果，尤其在细胞类型识别和低覆盖率数据中表现出优势。

图片来源（Nature Methods）

Data denoising with transfer learning in single-cell transcriptomics

摘要

单细胞转录组测序（single-cell RNA-seq, scRNA-seq）数据有高噪音和稀疏的特点。原文作者展示了跨数据集的迁移学习可显著提高数据的质量。通过将深度自动编码器与贝叶斯模型相结合，原文开发的SAVER-X软件可从不同实验室、不同条件和不同物种的数据中提取可迁移的基因关系，以对新的目标数据集进行降噪。

前言

在scRNA-seq的研究中，技术噪音让细胞状态之间的精确识别模糊化，而且低表达基因不能被准确量化。当测序深度较低或感兴趣的细胞类型较少时，现有的降噪方法往往表现不佳；而且这些方法也忽略了公共的数据集，这些公共数据集可能包含有助于降噪的相关信息。现在逐渐建立了小鼠的细胞图谱，很快就会有人体每个器官的详细图谱。可公开利用的scRNA-seq数据集包含与新产生数据相关的细胞类型和基因特征信息。然而，目前还不清楚如何跨平台、跨物种、跨组织地借用信息。此外，这种迁移学习方法不能引入bias或迫使新数据失去其独特的特征。

结果

原文作者开发了一种新的降噪方SAVER-X，该方法通过表达复原利用外部数据进行单细胞分析；它将贝叶斯分层模型与一个可预处理的深度自动编码器相结合。尽管神经网络已经成为了其他单细胞方法的基础，但现有的工具只对周围的数据起作用。此外，本文中广泛的基准测试和数据强调，除了SAVER-X软件的前身SAVER之外，大多数方法对真实基因表达都产生有偏估计，并引入了特殊的基因相关性。SAVER-X是建立在SAVER软件的核心模型基础上，结合自动编码器后端