目录
Geneformer 是最近推出的 和功能强大的 AI 模型,可以通过从大量单细胞转录组数据中进行迁移学习来学习基因网络动力学和相互作用。借助此工具,研究人员可以在数据有限的情况下准确预测基因行为和疾病机制,从而加速药物目标的发现,并提高对各种生物学背景下复杂基因网络的理解。
AI 模型 Geneformer 由麻省理工学院和哈佛大学博德研究所的研究人员及其合作者开发,该模型使用 sc-RNA 表达数据中表达最高的基因生成每个细胞的密集表示,这些表示可以用作各种下游预测任务的特征。然而,Geneformer 的独特之处在于其架构所支持的功能,即使在使用很少的数据进行训练时也是如此。
类似于 BERT 的单单元数据参考模型
Geneformer 具有类似 BERT 的 Transformer 架构,并基于来自各种人体组织中大约 3000 万个单细胞转录组的数据进行了预训练。其注意力机制使其能够专注于输入数据中最相关的部分,以便更好地捕捉关键信息。借助这种上下文感知方法,模型可以通过考虑基因之间的关系和依赖性来做出预测。
在预训练阶段,模型采用了一种蒙版语言建模技术。这种技术将部分基因表达数据蒙版,然后模型根据周围环境学习预测蒙版基因。这项方法不需要标记数据,而是使模型能够理解复杂的基因相互作用和调节机制。
这种架构和训练 使模型能够在处理有限的数据时持续提高与染色质和基因网络动力学相关的各种任务的预测准确性。 例如,Genef