2024.10.31 | 多伦多大学DNA甲基化基础模型

今天我们关注多伦多大学推出的DNA甲基化基础模型。

Highlights‍‍

CpGPT 引入了一种基于 Transformer 的基础模型用于 DNA 甲基化分析，在超过 1500 个数据集上进行了预训练，这些数据集包含超过 10 万个样本。
该模型通过整合序列、位置和表观遗传背景在预测甲基化模式方面表现出色，在年龄预测和死亡风险评估方面优于专业模型。
CpGPT 在多项任务中实现了零样本性能，包括缺失数据插补、平台转换和参考映射，具有很高的通用性。
一个关键优势在于通过注意力权重实现样本特定的可解释性，能够识别每个预测中有影响力的 CpG 位点。
CpGPT 在衰老生物标志物挑战中的成功证明了其稳健性，在年龄预测中总体排名第二，在基于甲基化的死亡率预测中排名第一。
该模型的阵列转换能力弥合了新旧甲基化平台之间的差距，增强了与各种表观遗传时钟的兼容性。
通过利用深度学习，CpGPT 为研究衰老和疾病提供了新途径，将基于甲基化的模型的应用扩展到更广泛的健康评估中。

CpGPT 是一个在 CpGCorpus 上预训练的 Transformer 模型，

CpGCorpus 是一个包含大量公共 DNA 甲基化信息的大型数据集。

通过整合序列、位置和表观遗传数据，它甚至可以从甲基化组的一小部分中捕获复杂的表观遗传相互作用。

DNA 甲基化对于基因表达和染色质结构至关重要，CpG 位点在癌症和衰老等疾病中经常发生变化。

以下是 CpGPT 的独特之处：

深度预训练：在来自 1500 多项研究的 10 万多个样本上进行训练，涵盖 100 多万个 CpG 位点。
零样本技能：CpGPT 从最少的数据中推断甲基化，将不同的 Illumina 阵列映射到一个共同的参考。
跨哺乳动物范围：经过微调后，CpGPT 可以准确地推断新哺乳动物物种中的甲基化。
强大性能：经过微调的 CpGPT 在衰老生物标志物挑战中的年龄和死亡率预测的公共排行榜上总体排名第二，在该类别中排名第一。

研究背景

背景介绍: 这篇文章的研究背景是DNA甲基化是一种关键的表观遗传修饰，它在基因表达调控以及发育和疾病过程中起着重要作用。现有的甲基化时钟模型大多依赖于简单的线性模型，无法充分捕捉CpG位点的序列上下文或基因组位置，也无法提供样本特异性的解释。
研究内容: 该问题的研究内容包括开发一种新的基础模型CpGPT，通过在大规模数据集上进行预训练，学习甲基化模式，并在老化相关任务中进行微调，以提高其在年龄预测、死亡风险和发病率评估中的性能。
文献综述: 该问题的相关工作有：现有的甲基化时钟模型如Horvath时钟和DunedinPACE时钟，主要依赖于线性模型；单细胞转录组数据的分析模型如scGPT和Geneformer；以及最近应用于长寿研究的深度神经网络模型。

研究方法

这篇论文提出了CpGPT模型。具体来说：

数据集: CpGPT模型在大规模数据集CpGCorpus上进行预训练，该数据集包含来自1500多个研究的超过10万个样本，涵盖了多种组织类型、发育阶段和疾病条件。
模型架构: CpGPT基于改进的变压器架构transformer++，包括序列上下文、局部和全局位置上下文以及表观遗传状态的编码。模型通过预测甲基化状态及其不确定性来进行无监督训练。
训练过程: 使用多任务学习方法，通过掩码缺失的甲基化值来鼓励模型重建缺失数据。训练过程中使用了多种损失函数，包括均方绝对误差损失、Wasserstein距离损失和样本嵌入损失。
微调: 在特定任务（如死亡风险预测）上进行微调，使用修改后的Cox比例风险损失函数。

实验设计

数据分割: 将CpGCorpus数据集分为训练集、验证集和测试集，以确保模型在不同数据上的泛化能力。
实验步骤: 在训练集上进行多任务学习训练，在验证集上进行超参数调优和模型选择，在测试集上进行最终评估。

结果与分析

模型性能: CpGPT在零样本任务（如缺失值插补、平台转换和参考映射）中表现出色。在老化相关任务中，CpGPT在年龄预测和死亡风险预测中均优于现有的专用模型。
甲基化和样本嵌入: CpGPT的CpG位点和样本嵌入反映了功能基因组注释，如CpG岛和染色质状态。通过UMAP可视化，发现CpGPT能够捕捉到不同组织类型和细胞类型的甲基化特征。
零样本插补和平台转换: CpGPT能够从部分数据中准确重建缺失的甲基化值，并在不同甲基化平台之间进行转换，展示了其在实际应用中的潜力。
样本特异性解释: 通过分析注意力权重，CpGPT能够提供样本特异性的甲基化解释，识别出对特定组织类型最相关的CpG位点。
死亡风险预测: 在多个队列中，CpGPT在死亡风险预测中表现出色，C指数和AUC值均较高，能够有效区分生存概率高低不同的个体。

结论

这篇论文介绍了CpGPT，一种新的DNA甲基化基础模型，通过在大规模数据集上进行预训练，能够学习复杂的甲基化模式，并在老化相关任务中表现出色。CpGPT不仅在零样本任务中表现出色，还能在特定任务中进行微调，提供了样本特异性的解释。该模型的开发和应用为DNA甲基化分析和衰老研究提供了新的工具和方法。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述