2024年11月28 日,InstaDeepAI 团队(团队详情在文末)在《Nature Methods》期刊上发表了一篇题为“Nucleotide Transformer: building and evaluating robust foundation models for human genomics”的研究论文,其中指出从DNA序列预测分子表型一直是基因组学中的长期挑战,通常受到有限的注释数据以及任务间学习迁移能力不足的限制。在此,作者介绍了一项关于在DNA序列上预训练的基础模型——Nucleotide Transformer的广泛研究,该模型参数规模从5000万到25亿不等,并整合了来自3,202个人类基因组及850个多样化物种的基因组信息。这些Transformer模型生成了特定于上下文的核苷酸序列表示,即使在数据量有限的情况下也能实现准确的预测。作者展示了所开发的模型可以以较低成本进行微调,以解决多种基因组学应用问题。尽管没有监督,这些模型学会了将注意力集中在关键的基因组元素上,并可用于改善遗传变异的优先级排序。基因组学中基础模型的训练和应用提供了一种广泛应用的方法,可以从DNA序列准确预测分子表型。
简介
人工智能(AI)中的基础模型以其大规模特性为特征,包含数百万个参数并在庞大的数据集上进行训练。这些模型可以适应广泛的后续预测任务,深刻地改变了AI领域。自然语言处理(NLP)中的著名例子包括所谓的语言模型(LMs)如BERT和GPT。由于这些语言模型能够在未标注的数据上进行训练,创建能够解决下游任务的通用表示,近年来它们获得了显著的人气。一种实现对语言全面理解的方法是通过解决数十亿个完形填空测试来预测句子中缺失的正确单词,这种方法被称为掩码语言建模。早期将这一目标应用于生物学的例子涉及在蛋白质序列上训练语言模型,其任务是在大型蛋白质序列数据集中预测被掩码的氨基酸。当使用迁移学习应用于下游任务时,这些蛋白质语言模型展示了在预测蛋白质结构和功能等任务上的竞争力,甚至在数据稀缺情况下超越了先前的方法。
除了蛋白质序列,DNA序列中编码的依赖模式对于理解基因组过程起着根本性作用,从表征调控区域到评估单个变异在其单倍体型背景下的影响。在此背景下,专门的深度学习(DL)模型已经被训练来揭示DNA中有意义的模式。例如,DL模型已被用于从DNA序列预测基因表达,最近的进展结合卷积神经网络和转换器架构使得能够编码位于上游至100千碱基(kb)的调控元件。现代基因组学研究所产生的大量数据既带来了机遇也带来了挑战。一方面,跨物种和人群的自然变异复杂模式随时可用;另一方面,需要强大的深度学习方法来处理大规模数据,以便从未标注的数据集中准确提取信号。在核苷酸序列上训练的大规模基础模型似乎是一种值得探索的方法,以应对这一挑战。
在此,作者构建了用于编码基因组序列的稳健基础模型,命名为Nucleotide Transformer(NT),并进行了系统的研究和基准测试以评估其性能。作者首先构建了四个不同大小的语言模型,参数范围从5亿到25亿。这些模型在三个不同的数据集上进行了预训练,包括人类参考基因组、3,202个多样化的个体基因组以及850个来自各种物种的基因组。训练后,作者以两种方式利用这些模型的表示(嵌入)。为了评估NT在适应各种任务时性能的稳定性,作者在一组多样的18个基因组预测任务上训练了每个模型,并与三种替代的DNA基础模型以及一个最先进的非基础模型进行了比较,使用了系统的十折交叉验证程序。此外,为了扩大评估范围,作者将表现最佳的模型与针对具体任务优化的三个最先进的有监督基线模型进行了对比。为了解码预训练期间学到的序列特征,作者探索了模型的注意力图和困惑度,并对其嵌入进行了数据降维。此外,作者通过零样本评分评估了嵌入表示对重要功能性遗传变异影响的建模能力。在初步实验结果的基础上,作者开发了第二组四个语言模型,参数规模从5亿递减到5000万,以研究这类模型的缩放定律。作者成功构建了一个模型,该模型仅以前一最佳模型参数数量的十分之一实现了相同的性能,同时感知野大小翻倍。
结果概况
核苷酸变换器模型准确预测基因组任务
作者开发了一系列基于转换器的DNA语言模型(LM),这些模型从6千碱基对未注释的基因组数据中学习到了一般的核苷酸序列表示(图1a和方法)。受到自然语言处理(NLP)领域中更大训练数据集和模型尺寸展示出更优性能趋势的启发,作者构建了具有不同参数规模和数据集的转换器模型:(1) 一个包含5亿参数的模型,在从人类参考基因组提取的序列上进行训练(“Human ref 500M”);(2) 一个5亿参数的模型(“1000G 500M”)和 (3) 一个25亿参数的模型(“1000G 2.5B”),这两个模型都是在3,202个遗传多样的人类基因组上训练的;以及 (4) 一个25亿参数的模型,涵盖了来自不同门类的850个物种(“Multispecies 2.5B”),包括11种模式生物(图1c)。
图1:核苷酸转换器:一种有效的预训练、微调、分析和比较基因组学基础模型的方法。 a,b, NT训练的概述(a)以及通过微调应用于下游基因组预测任务(b)。通过探测进行的下游任务预测类似,但NT中不包含重新缩放权重。c, 在感知野大小、参数数量以及在作者由18个精心整理的下游任务组成的基准测试中的性能方面,NT模型与其他基因组学基础模型的比较。d, 下游任务中考虑的基因组特征的图形表示。
为了评估这些模型在预测各种分子表型方面的有效性,作者整理了18个来自公共可用资源的基因组数据集,涵盖剪接位点预测任务(GENCODE)、启动子任务(真核启动子数据库EPD)和组蛋白修饰及增强子任务(ENCODE),每个数据集设计成合理大小以实现快速而严格的交叉验证程序(图1d)。尽管有更大的数据集可用于监督模型,但这个由18个基因组数据集组成的集合为严格统计学方式下审查模型在不同任务中的适应性提供了多样化且稳健的选择,并可用于与其他DNA自监督基础模型的比较。这些数据集被处理成标准化格式,以便于实验并确保在评估大型语言模型性能时的可重复性。作者通过两种不同的技术来评估作者的转换器模型:探测和微调(图1b)。探测是指使用学习到的语言模型嵌入作为简单模型的输入特征来预测基因组标签。具体来说,作者使用逻辑回归或最多包含两个隐藏层的小型多层感知机(MLP)探测了十个任意选择的模型层。对于微调,作者将语言模型头部替换为分类或回归头部,并使用参数高效的技术进行再训练。为了确保不同模型之间的公平和准确比较,作者实施了十折交叉验证策略。
补充表2
为了将预训练的基础模型方案与领域的标准监督方法进行比较,作者在每个18项任务上从头开始训练了BPNet卷积架构的不同变体。BPNet架构在基因组学中被广泛使用,是通过监督学习从头开始建模小型数据集的一个非常强大的默认架构。观察到原始BPNet模型在所有任务上的强劲表现(平均马修斯相关系数(MCC)为0.665),并且通过将其规模增加到2800万参数,作者进一步提高了性能(平均MCC为0.683),这证实了直接监督的卷积架构在基因组任务上表现非常好(图2a,b)。接下来,作者评估了NT模型的探测和微调如何与这些监督基准模型在基准数据集上相比较。作者认为如果结果的两个标准偏差要么重叠,要么优于报告的基准值,则模型被认为是等效或优于其他模型。
图2:核苷酸转换器模型在微调后能够准确预测多样化的基因组任务。 a, 基于马修斯相关系数(MCC)的微调NT模型以及HyenaDNA、DNABERT和Enformer预训练模型在下游任务中的性能结果。作者还从头训练了BPNet模型以作比较(原始模型,121,000个参数;大型模型,2800万个参数)。数据显示为来自十折交叉验证程序的平均MCC ± 2 × 标准差(每个点n = 10)。b, 所有语言模型(LMs)在微调后按类别划分的MCC性能的归一化平均值。c, 多物种25亿参数模型(Multispecies 2.5B)在不同人类细胞和组织中对DNase I超敏位点(DHS)、组蛋白标记(HMs)和转录因子结合位点预测的表现与基线DeepSEA模型的对比。每个点代表不同基因组谱型的受试者工作特征曲线下面积(ROC AUC)。每种模型的平均AUC已标注。d, 多物种25亿参数模型在预测人类基因组剪接位点方面的表现,与SpliceAI和其他剪接模型进行比较。e, 多物种25亿参数模型在预测黑腹果蝇S2细胞发育增强子和管家增强子活性方面的表现,与基线DeepSTARR模型进行比较。
根据这一标准,通过探测,NT模型在5个任务中与基线BPNet模型表现相当,在18个任务中的8个任务中超过了基线模型(补充图1),并且显著优于直接从原始标记进行的探测。与近期研究结果一致,作者观察到最佳性能既依赖于模型也依赖于层的选择。作者还注意到,最高的模型性能从未由使用最终层的嵌入获得,正如早期研究所示。例如,在增强子类型预测任务中,作者观察到最高性能层与最低性能层之间的相对差异高达38%,表明各层间学习到的表示存在显著变化(补充图3)。与作者的探测策略相比,微调后的模型要么匹配(n = 6)要么超越(n = 12)了18个基线模型中的每一个(图2a,b)。值得注意的是,微调后的NT模型优于探测模型,并且更大、更多样化的模型始终优于较小的模型。这些结果支持了针对特定任务微调NT基础模型以实现卓越性能的必要性。作者的结果还表明,基于多物种2.5B模型所代表的多样化数据集训练,在来自人类实验的多个任务上优于或匹配1000G 2.5B模型。这暗示着增加序列多样性而非仅仅增大模型尺寸的战略可能会带来更好的预测性能,尤其是在计算资源有限的情况下。
补充图3
微调在过去的研究中并未得到充分探索,可能是因为其对计算资源的要求较高。作者通过采用一种最新的参数高效微调技术克服了这一限制,该技术仅需总模型参数的0.1%(图1b)。这种方法允许在一个GPU上更快地进行微调,将所有微调参数的存储需求减少了1000倍,同时仍然提供可比的性能。实际上,作者发现严格的探测比微调更慢且计算成本更高,尽管使用简单的下游模型处理嵌入看起来似乎更为直接。这种差异源于诸如层选择、下游模型选择和超参数等因素对性能的显著影响。此外,微调表现出的性能方差更小,增强了该方法的稳健性。总体而言,这种方法具有通用性和适应性,无需调整模型架构或超参数即可应用于各种任务。这与监督模型形成对比,后者通常具有不同的架构,并需要为每个任务从头开始训练。
最后,作者旨在评估大型语言DNA模型在使用广泛数据集和优化架构进行监督训练的稳健基线竞争中的潜力。为此,作者将多物种2.5B模型应用于三个额外的基因组预测任务,包括分类来自多样化人类细胞和组织的919个染色质谱型、预测全人类基因组的典型剪接受体和供体位点,以及从黑腹果蝇S2细胞预测发育性和管家增强子活性。值得注意的是,尽管没有对其原始微调架构进行任何额外更改或优化,多物种2.5B模型实现了与专门的深度学习(DL)模型相媲美的性能水平。例如,在分类染色质特征谱型的情况下,作者获得的曲线下面积(AUC)值平均仅比DeepSEA低约1%左右(图2c)。对于预测每个前mRNA转录本位置是否为剪接供体、剪接受体或都不是,作者调整了NT模型以提供核苷酸级别的剪接位点预测,并达到了95%的top-k准确率和0.98的精确召回AUC(图2d)。值得注意的是,作者的2.5B 6千碱基上下文模型匹配了最先进的SpliceAI-10k的性能,后者是在15千碱基输入序列上训练的,除了其他剪接基线外;并且在测试6千碱基输入序列时优于SpliceAI。最后,在管家和发育增强子预测方面,我们的模型分别略微超越(1%)和获得了略低(4%)的相关性值(图2e),相较于DeepSTARR而言。在这三个不同任务中,作者还比较了作者的参数高效微调和全模型微调(训练整个模型的所有参数以优化其在特定任务或数据集上的性能)。值得注意的是,在染色质和剪接预测中未观察到显著改进,而在增强子活性预测中仅有3%的适度提升(补充图2),这支持了作者高效微调方法的使用。总体而言,作者的广泛基准测试和结果展示了NT作为一种通用方法来处理许多不同的基因组任务并达到高精度的灵活性和性能。
补充图2
基因组学基础模型的基准测试
作者将NT模型与其他基因组学基础模型进行了比较,包括DNABERT-2、HyenaDNA(1-kb和32-kb上下文长度)以及Enformer(作为预训练模型的一种替代架构;图2a,b)。作者排除了DNABERT-1的比较,因为它只能处理最大512碱基对的输入长度,因此无法用于大多数任务。为了确保公平比较,所有模型都按照相同的协议在18个下游任务上进行了微调和评估。与DNABERT-2、HyenaDNA-32-kb和Enformer相比,作者的多物种2.5B模型在各项任务中实现了最高的整体性能(图2a,b)。尽管如此,Enformer在增强子预测和一些染色质任务上表现最佳,表明它也可以成为一个强大的DNA基础模型。我们的模型在所有启动子和剪接任务上的表现优于其他所有模型。值得注意的是,尽管HyenaDNA是在人类参考基因组上预训练的,作者的多物种2.5B模型在所有18个任务中要么匹配(n = 7),要么超越(n = 11)了它的表现,这突显了在多样化基因组序列集上预训练的优势。作者建立了一个交互式的排行榜,包含了每个任务中所有模型的结果,以方便进行比较(https://huggingface.co/spaces/InstaDeepAI/nucleotide_transformer_benchmark)。这代表了对基因组学基础模型的广泛基准测试,并应作为进一步开发基因组学语言模型的参考(图1c)。
图2
以无监督方式检测已知的基因组元件
为了深入了解NT模型的可解释性,并理解这些模型在进行预测时使用的序列元素类型,作者探索了它们架构的不同方面。首先,作者评估了嵌入能够捕捉与五个基因组元件相关联的序列信息的程度。作者观察到,NT模型在没有任何监督的情况下学习到了区分被唯一注释为基因间区、内含子、编码区和非翻译区(UTRs)的基因组序列的能力,尽管不同层之间的熟练程度各不相同(图3a,补充图7)。特别是,5亿参数规模的模型以及那些在较少样化的序列上训练的模型,在基因组区域间的分离度较低,这强化了最大模型在自监督训练期间捕捉相关基因组模式的能力。对于多物种2.5B模型,第一层中观察到最强的是基因间区与基因区内部分离,第五层则是5’ UTR区域的分离,而在第二十一层实现了大多数区域间的分离(图3a)。3’ UTR区域与其他元件之间有限的分离表明,模型尚未完全学会区分这类元件,或者如先前所建议的那样,许多这些区域可能被错误标注。与这些观察结果一致的是,作者的监督探测策略展示了高分类性能,准确率值超过0.78,尤其是在更深的层(图3b)。这证明了NT模型能够在无监督的方式下在其嵌入中学习检测已知的基因组元件,这可以用于下游基因组任务的有效预测。
图3:核苷酸转换器模型获取了关于基因组元素的知识。 a, 基于多物种25亿参数模型(Multispecies 2.5B)的第1层、第5层和第21层中五种基因组元素嵌入的t-SNE投影。b, 基于探测对五种基因组元素进行分类的准确率估计,贯穿各层。c, 描述在给定基因组元素处评估注意力水平的示意图。d, 在多物种25亿参数模型中计算的5’非翻译区(5′ UTR)、外显子、增强子和启动子区域每头和每层的注意力百分比。每个瓦片图右侧的条形图显示了给定层所有头中的最大注意力百分比。
接下来,作者通过注意力机制对模型进行了分析,以了解哪些序列区域被捕获并由注意力层使用。作者计算了每个模型头和层对于包含九种不同类型的基因结构和调控特征相关的基因组元件的序列的注意力百分比(图3c)。从形式上看,当一个注意力头的注意力百分比显著超过该元素在预训练数据集中自然出现的频率时,认为该头识别特定的元素。例如,50%的百分比意味着,在人类基因组平均而言,该特定头50%的注意力指向感兴趣的元素类型。通过对大约10,000个不同的6-kb序列应用这种方法,其中元素可以位于各种位置,并占序列的2-11%,作者发现注意力明显集中在跨其多样化头部和层的具体类型的基因组元件上(图3d和补充图8-16)。不同模型中显著注意力头的数量在各层之间差异显著,多物种2.5B模型对于内含子(640个头中有117个)、外显子(n = 72)和转录因子结合位点(n = 74)表现出最高的显著注意力头数量(补充图8和9),尽管含有外显子和转录因子基序的序列比例相对较小。关于增强子,最大模型的最大注意力百分比最高,例如,1000G 2.5B模型几乎达到了100%的注意力(补充图15)。类似的模式也出现在其他基因组元件中,如3’ UTR、启动子和转录因子结合位点,1000G 2.5B模型显示出高度专门化且具有高注意力的头部,特别是在前几层(补充图8-16)。
补充图15
为了更深入地了解预训练的NT多物种2.5B模型在更高分辨率下的特性(专注于更加局部的序列特征),作者检查了不同类型的基因组元件的标记概率,作为衡量模型所学序列约束和重要性的指标。具体来说,作者计算了染色体22中每个6-kb窗口的六聚体标记概率(基于每次遮蔽一个标记)。作者的发现揭示了,除了预期中的重复元件被模型很好地重建外,预训练模型还学习到了各种基因结构和调控元件。这些包括受体和供体剪接位点、polyA信号、CTCF结合位点及其他基因组元件(补充图17a–d)。此外,作者将标记预测与MST1R基因第11外显子的实验饱和突变剪接分析进行了比较。该分析显示实验突变效应与多物种2.5B模型做出的标记预测之间存在显著的相关性(皮尔森相关系数(PCC) = 0.44;补充图17e)。模型不仅捕捉到了不同剪接接合处的约束,还识别出了第二个内含子中部对这个外显子剪接至关重要的区域。这些结果有力地验证了NT模型在无监督预训练期间获得的生物学知识。
补充图17
最后,完全微调到DeepSTARR增强子活性数据上的多物种2.5B模型被用于确定它是否学会了关于转录因子(TF)基序及其对于增强子活性的重要性。作者使用了一个包含数百个增强子序列中五种不同TF基序类型的个体实例的实验突变数据集,并评估了模型预测这些突变效应的准确性。与最先进的增强子活性DeepSTARR模型相比,作者的模型对四种TF基序实现了相似的表现,并对Dref基序展示了更优的表现(补充图18)。综合来看,这些结果说明了NT模型如何获得了恢复基因结构和基因组序列功能特性的能力,并将这些信息直接整合到其注意力机制中。这种编码的信息应该有助于评估遗传变异的重要性。
补充图18-19
预训练嵌入预测突变的影响
此外,作者评估了NT模型评估各种遗传变异严重程度并优先考虑那些具有功能意义的能力。作者首先调查了零样本得分的使用,即用于预测模型在训练过程中未见过的类别的得分。具体而言,作者计算了嵌入空间中不同方面的向量距离得分以及从损失函数衍生出的得分,并比较了它们在十种不同严重程度的遗传变异类型之间的分布(图4a)。令人鼓舞的是,这些零样本得分中有几个在模型间与严重程度表现出适度的相关性(补充图19)。这说明仅通过无监督训练就捕捉到了与遗传突变潜在严重程度相关的相关信息,并强调了评估不同评分方法的实用性。得分间的高变异性也表明,嵌入空间的不同方面可能更有效地捕捉与严重程度有关的信息。其中,余弦相似度在模型间与严重程度的相关性最高,r²值范围为-0.35至-0.3(P < 6.55 × 10^-186;补充图19)。在模型中,影响蛋白质功能的遗传变异(如终止密码子获得变异)以及同义和错义变异获得了最低的余弦相似度得分(图4b)。相反,作者认为功能上可能不那么重要的变异(如基因间变异)获得了更高的得分,这突显了其捕捉遗传变异严重程度效果的潜力。
图4:优先排序功能性遗传变异。 a, NT模型零样本预测应用的概述。b, 根据模型间的余弦相似度指标,在不同十分位数上变异后果术语的比例。后果术语按照Ensembl估计的严重程度(从较轻到较重)顺序展示。c, 基于不同距离度量的功能性变异优先排序的零样本预测比较。d, 基于GRASP eQTLs和meQTLs、ClinVar和HGMD注释的突变,对微调模型和可用方法进行功能性变异优先排序的比较。模型性能通过ROC曲线下面积(AUC)来衡量,并展示了三个表现最佳模型的AUC值。
接下来,作者也探讨了零样本得分在优先考虑功能变异及具有致病效应的变异方面的潜力。具体而言,作者评估了模型分类影响基因表达调控的遗传变异(表达数量性状位点(eQTLs))、与DNA甲基化变化相关的遗传变异(甲基化数量性状位点(meQTLs))、在ClinVar数据库中标注为致病性的遗传变异以及在人类基因突变数据库(HGMD)中报告的遗传变异的能力。零样本得分展示了高分类性能,在四个任务中的最高AUC范围从0.7到0.8(图4c)。针对ClinVar变异获得的最佳表现(多物种2.5B模型的AUC为0.80)表明,至少对于高度致病性变异,零样本得分可能是可以直接应用的。最后,为了更正式地评估这些模型的有效性,作者还根据微调后的模型进行了预测,并将其性能与几种方法进行了比较。这些方法包括测量基因组保守性的方法,以及从功能特征训练的模型中获得的得分。值得注意的是,微调后的模型要么略微优于或紧密匹配其他模型的性能(图4d和补充图20)。对于优先排序分子表型(eQTLs和meQTLs)的最佳模型是那些基于人类序列训练的,而对于优先排序致病性变异的最佳模型则是基于多物种序列的。鉴于最严重的致病性变异往往由于氨基酸变化而影响基因功能,有可能多物种模型利用了跨物种的序列变异来学习各位置的保守程度。作者的结果还表明,通过对增加的人类遗传变异的学习,可以提高非编码变异(如eQTLs和meQTLs)的预测能力。此外,与零样本得分相比,点积对于eQTLs和meQTLs分别产生了0.73和0.71的AUC值,略高于或匹配微调模型所得的结果。考虑到大多数这些遗传变异倾向于位于调控区域,模型可能已经无监督地学习到了与基因表达和甲基化变异相关的调控基因组特征。这与观察到的层和头部间的注意力水平一致,特别是对于已被证明在meQTLs和eQTLs中富集的增强子(图3a)和启动子(补充图13)等相关的调控序列。总体而言,这些结果说明了基于DNA的变换器模型如何帮助揭示并有助于理解与分子表型和疾病相关的变异的潜在生物学意义。
补充图13
模型优化以实现基因组学中的成本效益预测
最后,作者探讨了通过引入当代架构改进和延长训练时间来优化作者表现最佳的模型的潜力。作者开发了四个新的NT模型(NT-v2),参数数量从5000万到5亿不等,并引入了一系列架构增强。这些改进包括引入旋转嵌入、实现swiGLU激活函数,以及消除MLP偏置和dropout机制,与最新的研究保持一致。此外,作者将上下文长度扩展至12kb,以便涵盖更长的序列并捕捉更远距离的基因组相互作用。对于参数量为2.5亿和5亿的模型,作者延长了训练时长,使其包含1万亿个标记,这符合文献中的最新建议(图5a)。在相同多物种数据集上预训练后,所有四个NT-v2模型都经历了微调并在相同的18个下游任务中进行了评估,其结果与最初的四个NT模型进行了比较(图5b)。
图5:高效的模型架构允许在大幅减少模型参数数量的同时匹配性能。 a, NTr-v2模型在训练过程中随已观察到的标记数量变化的损失值演变。b, NT-v2模型在预训练期间随观察到的标记数量变化的MCC性能归一化平均值。c, 所有NT(灰色)和-v2(蓝色阴影)NT模型在微调后按类别划分的下游任务中MCC性能的归一化平均值。黑色虚线代表多物种25亿参数模型(NT 2.5B Multispecies)的性能。d, 核苷酸水平剪接位点预测任务上NT微调的概述。预训练权重和从头开始训练的权重被突出显示。e, 多物种v2 5亿参数模型(Multispecies v2 500M)在预测人类基因组剪接位点方面的表现,与它的25亿参数对应模型及SpliceAI进行了比较。
作者观察到,5000万参数的NT-v2模型实现了与两个5亿参数NT模型及基于1000个基因组数据集训练的25亿参数模型相似的性能。这表明,优秀的预训练数据集与训练技术和架构的进步相结合,可以在同时提升性能的情况下使模型参数减少约50倍(图5c)。事实上,NT-v2 2.5亿和5亿参数的模型在保持显著较少的参数量的同时,实现了对25亿参数多物种模型的性能超越,并且将感知域扩大了一倍。特别是,2.5亿参数的NT-v2模型,在作者的基准测试中获得了最佳性能(平均马修斯相关系数MCC为0.769),而其规模仅为25亿参数模型的十分之一(图5c)。
为了进一步了解更长时间预训练的需求,作者系统地评估了NT-v2模型在预训练期间看到的标记数量对其性能的影响(图5b)。结果显示,只有在训练了9000亿个标记之后,2.5亿参数的模型才显示出相对于5亿参数模型的小幅改进。总之,配备12kb上下文长度的NT-v2模型由于其紧凑的尺寸,适合部署在成本效益高的加速器上。因此,它们为希望在其下游应用中利用前沿基础模型的用户提供了经济可行且实用的选择。
作为相关的使用案例,作者用一个已建立的表现良好的模型评估了NT-v2模型较长上下文长度的优势,通过评估5亿参数模型在SpliceAI剪接任务上的表现来实现。我作者们选择了5亿参数模型,因为它在此类任务上表现出最高性能。作者调整了分类头以预测核苷酸级别的剪接受体、供体或无的概率(图5d和方法)。相比于6kb上下文长度的NT模型,作者的NT-v2 5亿参数12kb模型提高了1%的性能,达到top-k准确率96%和精度-召回AUC值0.98(图5e)。这一性能超过了基于15kb输入序列训练的最先进的SpliceAI-10k。值得注意的是,作者没有尝试专门为剪接预测任务优化模型架构;而是应用了与其他下游任务类似的微调方法,仅对分类头进行了调整以产生核苷酸级别的预测。针对如剪接等特定任务进行的进一步架构细化可能会提高性能。总之,这些结果确认了NT v1和v2模型对于广泛基因组任务的有效性和实用性,仅需最小的修改和计算资源即可实现高准确性。
总结-概述-分析方法:
该研究论文介绍了核苷酸变换器(Nucleotide Transformer, NT),这是一种用于基因组学的预训练、微调、分析和比较基础模型的新方法。研究人员开发了四个不同大小的大语言模型(LLMs),参数数量从5亿到25亿不等。这些模型在三个数据集上进行了预训练:人类参考基因组、3,202个多样化的个人基因组集合,以及来自多种物种的850个基因组。
以下是实验设计、结果和分析的总结:
实验设计:
-
研究人员使用了遮蔽语言建模(masked language modeling, MLM)技术来训练LLM变换器,将核苷酸序列视为句子,k-聚体(k=6)作为单词。
-
模型采用BERT方法论,并使用了仅编码器的变换器架构进行训练。
-
模型通过探测和微调技术进行评估。
-
探测: 利用学习到的语言模型嵌入DNA序列作为简单模型(如逻辑回归或小型多层感知器(MLP))的输入特征。
-
微调: 用分类或回归头替换语言模型头,并使用参数高效的重新训练技术。
-
实施了十折交叉验证策略以确保不同模型之间的公平和准确的比较。
-
研究人员从零开始训练了不同版本的BPNet卷积架构,并在18项任务上作为比较基线。
-
使用了18个精心策划的基因组预测任务来评估NT的性能和稳定性。这些任务分为三类:
-
染色质谱型: H2AFZ, H3K27ac, H3K27me3, H3K36me3, H3K4me1, H3K4me2, H3K4me3, H3K9ac, H3K9me3, H4K20me1。
-
调控元件: 增强子、增强子类型、启动子、非TATA启动子、TATA启动子。
-
剪接: 所有剪接位点、剪接受体、剪接供体。
结果:
-
NT模型在各种任务中超越或匹配了现有最先进模型的表现:
-
多物种25亿参数模型在预测染色质特征、转录因子结合位点和剪接位点方面表现出优越性能。
-
对于剪接预测,25亿参数6-kb上下文模型与SpliceAI-10k(基于15-kb输入序列训练)的性能相当,并且在测试6-kb输入序列时优于SpliceAI。
-
在增强子活性预测方面,该模型取得了与DeepSTARR可比的结果。
-
探测揭示了NT模型能够在无监督的情况下学习检测已知的基因组元件。
-
注意力图分析显示,注意力在不同的头部和层之间明显集中在特定类型的基因组元件上。
-
跨各种基因组元件的标记概率表明,预训练模型学会了识别基因结构和调控元件,并通过与实验性剪接测定结果的相关性得到了验证。
-
基于零样本的得分仅从基因组序列中得出,在优先考虑功能遗传变异方面展示了有希望的结果,特别是非编码变异。
分析方法:
-
重建准确性和困惑度用于评估模型重建被遮蔽标记的能力,这反映了它们对基因组序列的理解。
-
t-SNE投影嵌入用于可视化嵌入空间中不同基因组元件的分离情况。
-
计算各头部和层之间的注意力百分比,以确定对特定基因组元件的关注焦点。
-
分析不同基因组元件的标记概率,以了解模型对基因结构和调控元件的识别能力。
-
基于嵌入空间距离的零样本得分用于评估优先考虑功能遗传变异的能力。
该研究还引入了一个改进的NT-v2模型,其参数减少(从5000万到5亿),同时保持高性能。这种高效架构允许更长的上下文窗口(12kb)和提高计算效率。研究人员强调了NT在广泛基因组应用中的潜力,包括变异效应预测、功能元件识别和未充分研究的基因组探索。他们强调了这些基础模型对于增进我们对DNA序列中复杂生物过程理解的重要性。
作者强调了NT方法的优势,同时指出了可能的局限性和未来的研究方向:
-
探测与微调: 研究表明,相对于仅使用最后一层,探测中间变换器层能提供更好的下游任务性能,这与自然语言处理中观察到的趋势一致。尽管单独的探测已经取得了良好的结果,但通过IA3技术进行的微调在性能和计算效率方面更为优越,重新训练只需总参数的0.1%。这使得微调成为与广泛探测相竞争的方法。
-
基因组学中的基础模型: 该研究强调了基础模型在基因组学中的重要性日益增加,这是由数据的丰富性和提取有意义信号的需求所推动的。NT模型为利用大规模数据进行预训练提供了有力的例子,并展示了它们在各种下游任务中的泛化能力,有可能改变基因组分析领域。
-
零样本预测: NT模型展示了零样本得分的应用价值,特别是用于预测非编码变异效应。由于这些得分完全基于基因组序列得出,因此对于非人类生物体,尤其是那些功能注释有限的物种,具有应用前景。研究人员鼓励采用这种方法来探索研究较少的基因组。
-
未来研究方向: 讨论提出了几个未来研究的方向,包括扩展模型以处理更长的输入序列、探索不同的分词策略以及在预训练过程中引入额外的生物数据。研究人员还承认需要进一步调查这些模型的可解释性,以便全面理解所捕捉的生物学原理。
总体而言,讨论部分将核苷酸变换器模型定位为基因组学的一个重大进展,提供了一种强大且灵活的方法来解析DNA序列与分子表型之间的复杂关系。本研究突显了这种方法加速研究并加深对生物过程理解的潜力。
核苷酸转换器(NT),这是一系列在大规模DNA序列上训练的基础模型,旨在解决从DNA预测分子表型的挑战。本研究最重要的亮点包括:
-
开发了参数规模从5000万到25亿的NT模型,这些模型是在3,202个人类基因组和850个来自不同物种的基因组上进行训练的。 这些模型展示了利用大规模基因组数据进行预训练和微调以应对各种下游基因组学任务的潜力。
-
证明了NT模型可以被有效探测和微调,以在多样化的基因组任务中表现出色。 这包括预测染色质特征和转录因子结合、剪接位点以及增强子活性等任务。值得注意的是,NT模型在性能上达到了与既定的任务专用模型相当或更优的水平。
-
证据表明NT模型在没有显式监督的情况下学习到了生物学相关的特征。 研究显示,模型的注意力集中在已知的基因组元素上,并且标记概率与实验测量的功能效应相关。这表明NT模型能够从原始DNA序列中捕捉到具有生物学意义的信息。
-
引入零样本预测方法评估遗传变异的功能影响。 该方法利用NT模型的学习表示,在无需事先在变异数据上进行训练的情况下,根据潜在影响优先排序变异。这对研究功能注释有限的物种中的变异开辟了新的途径。
研究的关键结论是:
-
在大规模DNA序列上预训练的基础模型有潜力改变基因组分析。 通过学习DNA的一般化表示,这些模型可以在最少微调的情况下适应各种任务,提供一种强大而高效的方法来解决多样的生物学问题。
-
NT模型表现出稳健性和适应性,展现了其在各种下游任务中的泛化能力,并实现了与任务专用模型竞争的性能。 这种适应性突显了基础模型在解锁基因组数据新见解方面的潜力。
-
NT模型的无监督学习能力使它们能够捕捉生物学相关的特征和模式,反映了它们从原始序列数据中提取有意义信息的能力。 这一发现强调了这些模型在揭示新的生物见解和原则方面的潜力。
作者提出了一些建议和未来方向:
-
扩展模型以处理更长的输入序列。 这可以通过探索不同的分词策略或开发专门架构以容纳更长的基因组上下文来实现。
-
在预训练期间结合额外的生物数据。 这可能包括来自表观基因组学、蛋白质组学或其他相关领域的数据,丰富模型对DNA序列与其他生物过程之间相互作用的理解。
-
进一步调查这些模型的可解释性。 虽然研究表明模型能够学习生物学相关的特征,但深入了解这些模型如何得出预测对于获得进一步的洞见和确保负责任的应用至关重要。
-
将零样本预测应用于非人类生物体。 这对于研究功能注释有限的物种特别有前景,有助于探索多样化的基因组并发现新的生物机制。
文章使用了多种生物计算方法来进行基因组学基础模型的预训练、微调、分析和比较。以下是所用计算方法和软件的详详情:
-
预训练与模型架构:掩码语言建模(MLM):这一技术受BERT启发,用于预训练核苷酸转换器(NT)模型。它涉及在输入DNA序列中遮蔽一定比例的标记(本例中为6聚体),并训练模型基于周围上下文预测这些被遮蔽的标记。仅编码器转换器架构:NT模型采用了仅编码器转换器架构,该架构一次性处理整个输入序列,从而能够捕捉DNA中的长距离依赖关系。分词:研究人员采用6聚体分词作为序列长度和嵌入大小之间的权衡。分词器利用包含4,104个标记的词汇表,包括所有可能的6聚体组合A、T、C、G,五个额外的单个核苷酸标记以及三个特殊标记(填充、遮蔽和类别)。数据集:使用了三个预训练数据集:人类参考基因组、来自“千人基因组计划”的3,202个人类多态性基因组,以及850个不同物种的基因组(多物种数据集)。数据增强:采用数据增强技术以增加训练数据的多样性。对于人类参考和多物种数据集,采用了随机起始点分词和重叠块;对于1000G数据集,则将个体基因组中的突变引入到参考基因组序列中。损失函数和优化器:训练过程中使用的损失函数是遮蔽位置上预测标记与真实标记之间的交叉熵损失之和。使用Adam优化器,并设置了特定的学习率调度。
-
微调:参数高效微调(PEFT):采用IA3技术,一种PEFT方法,对NT模型进行特定下游任务的微调。这种方法冻结了预训练模型的权重,并引入新的可学习参数,大大减少了再训练的计算成本。全微调:由于架构与PEFT不兼容,基线模型HyenaDNA采用全模型微调进行微调。
-
分析与评估:探测:从NT模型的不同层中学习到的嵌入被用作简单下游模型(如逻辑回归和支持向量机)的输入特征。这种方法评估了学习表示的质量及其推广到不同任务的能力。使用Scikit-learn实现了逻辑回归。 性能指标:马修斯相关系数(MCC)被用作评估模型在下游任务中表现的主要指标。 重构准确性和困惑度:这些指标用于评估模型重构输入序列中遮蔽标记的能力,提供了其对底层序列模式理解的洞见。 t-SNE可视化:t分布随机邻域嵌入(t-SNE)用于可视化嵌入空间中不同基因组元素的分离情况,从而评估模型根据学习表示区分这些元素的能力。注意力图分析:分析注意力图以了解模型注意力层聚焦于哪些序列区域。对于含有不同基因组元素的序列,计算了各头和各层的注意力百分比。使用双比例z检验和Bonferroni校正评估注意力聚焦的统计显著性。标记概率分析:计算并比较了不同基因组元素的标记概率与实验数据(如剪接测定)以评估模型学习和表示已知生物特征的能力。零样本预测:这种方法用于预测遗传变异的严重性而无需事先在变异数据上进行训练。使用嵌入空间中的各种距离度量(如余弦相似度、L1距离、L2距离和点积)来计算零样本分数。变异效应预测基准测试:NT模型在优先排序功能遗传变异方面的表现与已建立的方法(如CADD、GERP、phastCons、phyloP和DeepSEA)进行了比较。使用Combined Annotation Dependent Depletion(CADD)工具计算CADD、GERP、phastCons和phyloP得分。DeepSEA得分则通过Beluga模型获得。
-
软件与资源: 编程语言与库:很可能使用了Python来实现模型和分析。对于深度学习任务,可能使用了标准的机器学习库如TensorFlow或PyTorch。 基因组数据资源:本研究利用了来自公共数据库的数据,包括但不限于:千人基因组计划:用于获取多态性人类基因组。RefSeq:用于多物种参考基因组。GENCODE:用于基因注释。Ensembl:用于基因注释和变异效应预测。ENCODE:用于调控元件和染色质谱型。 ○ 真核启动子数据库(EPD):用于启动子序列。SCREEN数据库:用于增强子和调控元件注释。GTEx:用于剪接预测的RNA-seq数据。GRASP:用于表达数量性状位点(eQTL)和甲基化数量性状位点(meQTL)数据。ClinVar:用于临床相关的变异注释。HGMD:用于人类基因突变数据。工具与平台: ○ HISAT2:用于提取剪接位点注释。Illumina BaseSpace:用于重现SpliceAI训练数据集。WashU表观基因组浏览器:用于可视化22号染色体上的标记概率。Hugging Face:用于分享预训练模型、数据集和基准测试结果。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。