【算法详解】R包Seurat v3单细胞数据的综合整合（集成）算法解析

原创

已于 2023-09-20 15:53:45 修改 · 1.9k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #算法 #机器学习 #论文阅读

于 2023-09-19 21:54:21 首次发布

本文介绍了Seurat中的数据整合算法，通过预处理、特征选择、降维和识别anchor，处理不同技术、模态间的单细胞数据，实现多数据集的协调分析。方法包括anchor过滤、评分和赋权，以提高整合的准确性。

2.2 降维和在不同数据集之间识别anchor

2.3 对anchors过滤（filtering）、评分（scoring）并赋权（weighting）

0 参考文献

原论文：Comprehensive Integration of Single-Cell Data

1 背景概述

近年来，分子生物学、微流控技术和计算方法的快速发展已经使得单细胞测序领域不再局限于基于单细胞RNA测序（scRNA-seq）的常规的转录组学分析。一些新方法涵盖对单细胞多方面特征的不同表征，例如免疫表型、基因组序列、谱系起源、DNA甲基化谱、染色质可及性、空间定位等。每种技术都具有其独特的优势和局限性，并且只能测量细胞特性的特定方面。

随着测量不同的细胞模态的新方法的出现，一个关键的问题是如何将这些数据集整合起来，以更好地理解细胞的特性和功能。

将不同单细胞测量数据进行整合主要有以下两方面的挑战：

1）如何使跨个体、技术和模态产生的不同单细胞数据集相互协调，构建成一个统一的参考数据集。

2）当构建了参考数据集后，如何利用其数据和元数据（描述数据的数据）来增进对新实验的分析。

文章提出了一种参考数据整合和迁移学习的统一策略，用于转录组、表观基因组、蛋白质组和空间分辨的单细胞数据。通过在数据集之间识别单细胞之间的细胞成对对应关系（这种细胞对应关系被称为anchor，后面我将直接使用这个词），可以将存在技术差异或生物个体差异的数据集转换到一个共享空间。这使得可以在组织或生物体尺度上构建协调一致的图谱，并有效地将离散或连续数据从参考（reference）数据集对应到查询（query）数据集。

这种方法已经在Seurat v3及以上版本的R包中实现。