目录
0 参考文献
[1] PASTE论文:Alignment and integration of spatial transcriptomics data
[2] PASTE2论文:PASTE2: Partial Alignment of Multi-slice Spatially Resolved Transcriptomics Data.
1 PASTE回顾
1.1 算法概述
在之前的博客中,我已经介绍过了PASTE算法。
PASTE(probabilistic alignment of Spacial Transcriptomics experiments)是一种通过同时利用数据中提供的基因表达水平信息和位置信息,将相邻组织切片通过所获得的数据进行对齐或整合的算法。PASTE提供了两种模式,即数据对齐(alignment)和数据整合(integration)。
“对齐”模式是在两个切片的点与点之间找到具有高度相似性的点(这里的“点”由技术手段决定)进行对齐,即寻找从一个切片中的点到另一个切片中的点的合理概率映射,从而能够从2D切片数据恢复出3D组织结构。
“整合”模式是将多个切片整合为单一的“中心切片”,该中心切片与独立切片在基因表达水平和空间关系上具有高度的相似性。其目的是克服由于不同的测序覆盖、组织解剖或捕获区上的组织放置而导致的单个切片的可变性。
PASTE2基于PASTE的“对齐”模式进行改进。
1.2 数据的符号定义
这部分在介绍PASTE时已经介绍过了,PASTE2与PASTE仅有细微差别,但为了方便,这里再写一次对数据的符号定义。
ST实验得到的结果数据是一对矩阵(X, Z),其中是一个n*p的矩阵,p为基因数量,n为捕获区的点数,
代表第i个点处第j个基因的表达水平(数量),向量
为第i个点的基因表达水平。矩阵Z是一个2*n矩阵,其中第j列的二维向量
代表第j个点在捕获区的二维坐标,即空间位置。
由于在进行ST实验时组织切片放置方向比较随机,因此直接使用Z矩阵作为空间位置并不高效,因此使用相对位置矩阵D,是一个n*n的矩阵,
为第i个点与第j个点的相对位置。
此外,对每一个点i,设置一个严格大于零的权重用于表示该点相对于其他点的重要程度,并且有限制
。如果没有先验知识指导权重的设置,那么就令每个点的权重相同。
设置代价函数c:,该函数用于衡量两个点处基因表达水平的相似程度,例如使用KL散度,应该越相似函数值小。
那么现在的两个切片数据就变为(X, D, g)和(X', D', g'),其中两个切片分别具有n和n'个点,点数不一定相同是因为只考虑捕获区接触到组织切片的点。
“对齐”模式要寻找两个切片之间的概率映射,其中
代表第一个切片中的第i个点与第二个切片中第j个点对齐的概率。
1.3 PASTE“对齐”模式实现
由于PASTE2仅对PASTE的“对齐”模式进行改进,因此这里只回顾PASTE“对齐”模式的算法实现。
PASTE通过最小化下面这个函数来找到这个映射

其中F函数包含两项,第一项用于衡量两个点之间基因表达水平的相似程度,第二项用于衡量两对点(每一对分别属于一个切片)在切片内距离的相似程度,均为相似程度越高,该项的值越小。具体内容可以参考

本文回顾了PASTE算法并介绍了其在组织切片对齐中的局限性,着重讨论了PASTE2算法的改进,包括部分对齐、切片重叠占比估计、概率映射优化以及结合组织学图像的3D结构重建。
最低0.47元/天 解锁文章
965

被折叠的 条评论
为什么被折叠?



