
单细胞转录组大模型
文章平均质量分 95
关注单细胞转录组大模型的发展
组学之心
PhD candidate/生物信息学/多组学/深度学习/AI
展开
-
Transformer在单细胞组学中干了啥?
细胞表型参考图谱的构建(已有很多篇超百万级单细胞的多组学图谱),极大丰富了单细胞组学数据的数量和多样性,为研究复杂的细胞特性提供了巨大的数据资源。但是呢,虽然目前拥有丰富的数据,而且它们还在持续增长,但是目前的分析方法在捕捉各种大规模单细胞数据集的变化方面存在不足,不断的 push 新型计算策略的发展。Transformer 已成为其他领域基础模型的首选架构,因为它们能够泛化到异构的大规模数据集。Transformer 最初是为自然语言处理 (NLP) 任务而设计的,最近被用作跨领域关键基础模型。原创 2024-08-15 22:15:55 · 1262 阅读 · 0 评论 -
nature reviews genetics | 怎么从组学-深度学习模型结果中,获取基因相关的解释?
深度学习因其卓越性能在遗传学领域产生了深远的影响,从基因组注释到单细胞数据的分类,各类预测任务中都能见到它的身影。然而,由于模型复杂性,它常被视为“黑箱”,难以理解其预测逻辑。随着数据生成成本下降与计算硬件不断进步,AI在遗传学领域的多样化任务中表现出色。理解深度学习模型如何进行预测,能够深入生物过程,但解释复杂数据集等同于解释复杂模型,而这需要巨大的计算成本。原创 2025-01-02 22:08:05 · 1166 阅读 · 0 评论 -
Tahoe-100M:现最大的1亿规模癌症单细胞转录组-药物治疗/扰动数据集
构建细胞行为的表达性计算机模型需要生成大型定量数据集,系统地绘制细胞状态如何被各种干扰重塑了构建细胞行为的预测性计算模型。扰动测量能够阐明因果基因-基因相互作用,揭示了反馈回路,并暴露了补偿途径,从而揭示了控制细胞行为和功能的潜在调控网络。但目前缺乏大规模高通量的基因扰动单细胞测序数据,作为相关计算模型的输入,因此该研究聚焦在这个痛点,发布了1亿规模的单细胞转录组扰动测序数据。原创 2025-03-08 23:59:32 · 931 阅读 · 3 评论 -
单细胞组学大模型(8)--- scGenePT,scGPT和GenePT的结合,实验数据和文本数据的交融模型
GenePT模型中已经证明使用基因的文本信息(NCBI gene数据库中对基因的描述),可以执行细胞聚类、基因调控网络和疾病状态预测的生物学任务,但并没有做对基因扰动预测的任务。所以,scGenePT模型是把基因文本数据和单细胞测序数据结合起来,实现更好的基因扰动预测的任务。基因文本信息包含:NCBI基因card的描述、Uniport数据库的蛋白描述、基因功能注释。原创 2025-01-12 21:51:13 · 1196 阅读 · 0 评论 -
单细胞组学大模型(7)--- GenePT,一个可以在本地部署和使用的单细胞转录组大模型
单细胞测序领域正在兴起一股开发“基础模型”的热潮,目的是学习基因和细胞的embedding表示,促进各种下游分析。原创 2025-01-05 18:47:59 · 1276 阅读 · 0 评论 -
单细胞组学大模型(6)--- LangCell,医学/细胞文本知识增强模型效果
目前,用于表示单细胞数据的模型已经取得了显著进展。然而,这些模型在理解细胞身份这一关键生物学问题上仍存在一些挑战:1.对人类专家知识的利用不足: 现有的模型主要通过自监督学习来捕捉基因之间的共表达关系,但未能充分利用人类专家对细胞类型的深入理解。这限制了模型在理解细胞身份方面的能力,从而影响其在下游任务中的表现。2.缺乏细胞与文本/标签的配对数据: 细胞身份信息通常由人类专家通过自然语言描述。然而,现有的模型难以直接将这些文本信息与单细胞数据关联起来,这阻碍了模型对细胞身份的深入理解。原创 2024-10-07 17:00:17 · 1353 阅读 · 0 评论 -
单细胞组学大模型(5)--- scFoundation,1亿参数量,非对称encoder-decoder
左边一列是单个细胞的原始raw count 矩阵,先计算一个基因表达值的和“T”,然后每个基因贝叶斯下采样后得到中间一列,并计算一个下采样后的基因表达值的和“S”,最后对这个下采样的结果进行随机masked(0值部分随机masked 3%的,非0值有30%),拼上“T”和“S”,组成一个19266长度的向量,送到xTrimoGene模型中。,意味着在整个细胞样本中,经过下采样处理后,每个细胞的total count(基因表达值的总和)的期望值是原始细胞total count的。原创 2024-09-29 15:02:00 · 1241 阅读 · 0 评论 -
单细胞组学大模型(4)--- scMulan,生成式单细胞大模型
scMulan是清华-张学工团队的研究成果,模型架构基于transformer的decoder,做成了生成式模型。原创 2024-09-17 23:34:26 · 1893 阅读 · 0 评论 -
38篇单细胞组学大模型相关文献汇总!有需自取!
简单整理了一下单细胞大模型相关的文章,也方便自己刷手机的时候浏览下。原创 2024-09-07 17:41:07 · 1453 阅读 · 0 评论 -
单细胞组学大模型(3)--- scGPT,有非常详细的学习文档和应用说明,且有多种训练数据权重!
多种组学:scRNA-seq, scATAC-seq, CITE-seq, Spatial transcriptomics;33 Million 的单细胞RNA数据 / cross-tissue, human, non-disease;来源于CELLxGENE数据库数据预处理:先用raw count矩阵,scRNA-seq是RNA分子的read count数目,scATAC-seq则是染色质可及性的peak region。都需要处理成cell-by-gene的矩阵形式。原创 2024-09-03 19:18:38 · 2228 阅读 · 5 评论 -
单细胞组学大模型(2)--- scBERT,已开源详细代码,且有预训练模型权重,可自行DIY!
scBERT模型是2022年腾讯的Healthcare AI实验室研发的,它和基础BERT模型架构相似。和iSEEEK模型相比,它的策略是用上基因表达的数据,并把transformer块换成performer块。接下来仔细的看看它的设计策略,和关键部分的代码怎么实现的。原创 2024-08-27 17:12:58 · 1927 阅读 · 1 评论 -
单细胞组学大模型(1)--- iSEEEK
这些相似性用于进一步的 Markov 链构建和扩散映射分析。原创 2024-08-22 21:59:45 · 975 阅读 · 0 评论