【算法详解】多切片空间分辨转录组数据部分对齐算法PASTE2，PASTE算法升级版

最新推荐文章于 2024-04-02 11:56:49 发布

原创

最新推荐文章于 2024-04-02 11:56:49 发布 · 1.8k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #算法 #论文阅读 #论文笔记

本文回顾了PASTE算法并介绍了其在组织切片对齐中的局限性，着重讨论了PASTE2算法的改进，包括部分对齐、切片重叠占比估计、概率映射优化以及结合组织学图像的3D结构重建。

0 参考文献

[1] PASTE论文：Alignment and integration of spatial transcriptomics data

[2] PASTE2论文：PASTE2: Partial Alignment of Multi-slice Spatially Resolved Transcriptomics Data.

1 PASTE回顾

1.1 算法概述

在之前的博客中，我已经介绍过了PASTE算法。

PASTE（probabilistic alignment of Spacial Transcriptomics experiments）是一种通过同时利用数据中提供的基因表达水平信息和位置信息，将相邻组织切片通过所获得的数据进行对齐或整合的算法。PASTE提供了两种模式，即数据对齐（alignment）和数据整合（integration）。

“对齐”模式是在两个切片的点与点之间找到具有高度相似性的点（这里的“点”由技术手段决定）进行对齐，即寻找从一个切片中的点到另一个切片中的点的合理概率映射，从而能够从2D切片数据恢复出3D组织结构。

“整合”模式是将多个切片整合为单一的“中心切片”，该中心切片与独立切片在基因表达水平和空间关系上具有高度的相似性。其目的是克服由于不同的测序覆盖、组织解剖或捕获区上的组织放置而导致的单个切片的可变性。

PASTE2基于PASTE的“对齐”模式进行改进。

1.2 数据的符号定义

这部分在介绍PASTE时已经介绍过了，PASTE2与PASTE仅有细微差别，但为了方便，这里再写一次对数据的符号定义。

ST实验得到的结果数据是一对矩阵(X, Z)，其中 $X=[x_{ij}]$ 是一个n*p的矩阵，p为基因数量，n为捕获区的点数， $x_{ij}$ 代表第i个点处第j个基因的表达水平（数量），向量 $x_{i\cdot }$ 为第i个点的基因表达水平。矩阵Z是一个2*n矩阵，其中第j列的二维向量 $z_{\cdot j}$ 代表第j个点在捕获区的二维坐标，即空间位置。