【算法详解】R包Seurat v3单细胞数据的综合整合(集成)算法解析

本文介绍了Seurat中的数据整合算法,通过预处理、特征选择、降维和识别anchor,处理不同技术、模态间的单细胞数据,实现多数据集的协调分析。方法包括anchor过滤、评分和赋权,以提高整合的准确性。

目录

0 参考文献

1 背景概述

2 Seurat数据整合算法

2.1 数据预处理和特征选择

2.2 降维和在不同数据集之间识别anchor

2.3 对anchors过滤(filtering)、评分(scoring)并赋权(weighting)

2.4 数据整合

2.5 多数据集整合

2.6 标签传输

2.7 特征推断


0 参考文献

原论文:Comprehensive Integration of Single-Cell Data

1 背景概述

近年来,分子生物学、微流控技术和计算方法的快速发展已经使得单细胞测序领域不再局限于基于单细胞RNA测序(scRNA-seq)的常规的转录组学分析。一些新方法涵盖对单细胞多方面特征的不同表征,例如免疫表型、基因组序列、谱系起源、DNA甲基化谱、染色质可及性、空间定位等。每种技术都具有其独特的优势和局限性,并且只能测量细胞特性的特定方面。

随着测量不同的细胞模态的新方法的出现,一个关键的问题是如何将这些数据集整合起来,以更好地理解细胞的特性和功能。

将不同单细胞测量数据进行整合主要有以下两方面的挑战:

1)如何使跨个体、技术和模态产生的不同单细胞数据集相互协调,构建成一个统一的参考数据集。

2)当构建了参考数据集后,如何利用其数据和元数据(描述数据的数据)来增进对新实验的分析。

文章提出了一种参考数据整合和迁移学习的统一策略,用于转录组、表观基因组、蛋白质组和空间分辨的单细胞数据。通过在数据集之间识别单细胞之间的细胞成对对应关系(这种细胞对应关系被称为anchor,后面我将直接使用这个词),可以将存在技术差异或生物个体差异的数据集转换到一个共享空间。这使得可以在组织或生物体尺度上构建协调一致的图谱,并有效地将离散或连续数据从参考(reference)数据集对应到查询(query)数据集。

这种方法已经在Seurat v3及以上版本的R包中实现。

2 Seurat数据整合算法

这个算法作用于来自不同技术、不同模态的多个单细胞数据集,将这些单细胞数据整合为一个集成的参考数据集。Seurat返回每个数据集的一个修正后的数据矩阵(corrected data matrix),从而可以在单个workflow中进行联合分析。

该方法由四个主要步骤组成:

1)数据预处理和特征选择

2)降维和在不同数据集之间识别anchor

3)对anchors过滤(filtering)、评分(scoring)和赋权(weighting)

4)数据矩阵修正/跨实验数据转移

以上四步将在下面详细介绍。

2.1 数据预处理和特征选择

首先对所有数据集进行了对数归一化,使用每个细胞的分子数量的尺度因子为10,000。然后对每个基因在所有细胞中的表达值进行了标准化处理(z-score转换),这是在运行主成分分析等降维工具之前的标准步骤。

单个数据集的特征选择:

对于每个数据集,我们希望能够选取一组特征(如基因),使得这组特征在不同细胞之间表现出高度的差异性,即通过这组特征能够较好地区分不同细胞,这通常体现为这些细胞在这组特征上数据的方差较大。

然而,仅根据对数归一化后的方差选择基因是不可靠的,因为这种方法忽略了单细胞RNA序列的固有均值-方差关系,因此首先使用了一个方差稳定变换(variance-stabilizing transformation)来进行校正。

为了从数据中学习均值-方差关系,显示用原始数据(未归一化的数据)计算每个feature的均值和方差,并对二者进行对数变换(以10位底数)。随后以方差为均值的函数拟合曲线,以此我们

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值