走进生信：PRAGA：用于空间多模态组学分析的原型感知图自适应聚合

文章摘要

空间多模态组学技术被《Nature Methods》评为2023年的先进生物技术，在解析具有空间背景的生物调控过程中发挥着关键作用。近年来，基于K近邻（KNN）图的图神经网络在空间多模态组学方法中受到关注，因为它们能够建模测序点之间的语义关系。然而，固定的KNN图无法捕获由于生物测序过程中不可避免的数据扰动而隐藏的潜在语义关系，导致语义信息的丢失。此外，实际应用中常见的点注释缺失和类别数量先验的缺乏也阻碍了空间多模态组学模型的优化。

为此，我们提出了一种新的空间多模态组学解析框架，称为原型感知图自适应聚合用于空间多模态组学分析（PRAGA）。PRAGA构建了一个动态图，用于捕获潜在的语义关系，并全面整合空间信息和特征语义。该可学习的图结构通过学习跨模态知识，还可以去除扰动噪声。此外，我们基于贝叶斯高斯混合模型的动态适应性提出了一种动态原型对比学习方法，以优化多模态组学表示以应对未知的生物先验。在模拟和真实数据集上与7种竞争方法进行的定量和定性实验表明，PRAGA具有优越的性能。

模型方法

动态组学特定图 对于特定的组学模态，构建一个可学习的参数矩阵来建模测序点间的语义关系图。使用K近邻无向图来初始化以确保初始稀疏化。其中K设定为20.

空间聚合编码 在首先通过KNN初始化可学习的特征图和空间邻接图。其中A是基于空间坐标计算的空间邻接矩阵。最终得到的空间聚合图为

其中两个W均为可学习参数。然后使用一层图卷积神经网络GCN作为编码器，通过空间聚合图可以对其中一个模态RNA测序特征进行编码。

其中W是编码器中可以学习的参数矩阵。

类似的，其他组学数据进行编码，获得所有模态的特定编码后，使用MLP将不同模态的编码映射为统一的综合表示。

对于每种模态我们使用单层GCN实现解码，通过空间邻接图从综合编码Z中重构组学特征。利用重构损失计算与原始组学特征之间的均方差：

其中W为重构权重，能够帮助组学特定图从其他模态中获取知识，以减轻测序扰动的影响并促进潜在语义关系的发现。

邻接图的剧烈变化可能会导致训练不稳定，因此利用更新前后特征图的F范数来计算同质性损失，以限制特征图的变化。

其中是模态m的参考图，初始化方式与相同，并在的学习过程中通过指数移动平均进行缓慢更新：

其中e是训练周期索引，是控制移动速度的超参数。同质性损失限制组学特定图每次仅学习少量的新关联边，在提供可解释性的同时保持训练稳定性。

动态原型对比学习 使用综合表示Z，设置初始聚类数量为C，利用高斯混合模型将Z分配到C个聚类中。参数敏感性实验验证了初始化的C不敏感，所以只需要一个大致的C即可。每个聚类的均值和样本数量定义为，其中c代表聚类索引。为了动态调整聚类数量，每个聚类进一步分为两个子聚类，设置每个聚类分裂准则，以决定是否需要分裂：

其中是伽马函数，是以正态逆Wishart分布为先验的边际似然，v和k是NIW的超参数。如果S>1，原聚类将被其中一个子聚类代替，另外一个子聚类作为新聚类添加。

同样也设置两个聚类是否需要合并：

如果M>1,则新的聚类将代替原来的两个聚类。

在获得调整后的聚类后，我们将每个Spot分配聚类，并以聚类中心为原型进行对比学习，从而进一步优化可学习特征图。

最后模型的总损失为：

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述