自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

原创 Tahoe-100M:现最大的1亿规模癌症单细胞转录组-药物治疗/扰动数据集

构建细胞行为的表达性计算机模型需要生成大型定量数据集,系统地绘制细胞状态如何被各种干扰重塑了构建细胞行为的预测性计算模型。扰动测量能够阐明因果基因-基因相互作用,揭示了反馈回路,并暴露了补偿途径,从而揭示了控制细胞行为和功能的潜在调控网络。但目前缺乏大规模高通量的基因扰动单细胞测序数据,作为相关计算模型的输入,因此该研究聚焦在这个痛点,发布了1亿规模的单细胞转录组扰动测序数据。

2025-03-08 23:59:32 770 4

原创 nature genetics | SCENT:单细胞多模态数据揭示组织特异性增强子基因图谱,并可识别致病等位基因

SCENT(单细胞增强子靶基因图谱)是一种用于分析10x Genomics单细胞多组学ATAC + RNA 多模态数据的模型,揭示增强子染色质可及性与基因表达之间的关联。该模型原理是泊松回归和非参数自举法,绘制出增强子-基因对,并预测与表达相关的增强子可能具有重要功能。研究分析了来自FinnGen、UK Biobank以及类风湿性关节炎、炎症性肠病和1型糖尿病的GWAS队列的精细定位变异。SCENT将4,124个推定因果变异(PIP >0.1)与1,143个性状中的潜在目标基因联系起来。

2025-03-07 23:15:35 935

原创 nature genetics | scATAC-seq预测scRNA-seq,识别影响基因表达的新染色质区域

多组学单细胞测序技术,特别是同时检测染色质可及性(scATAC-seq)和基因表达(scRNA-seq)的技术,为计算方法的发展提供了新的机遇。这些方法将增强子与基因联系起来,推断基因调控网络,并基于染色质势能的概念解析发育轨迹。染色质势能理论认为,在细胞分化过程中,基因位点的可及性先于基因表达。染色质可及性的研究把基因组和转录组学连接起来。现有的方法主要利用单细胞中ATAC和RNA的联合测量,识别单个可及区域(如峰或开放染色质域,DORCs)与基因表达水平之间的成对相关性,从而实现增强子-基因的关联。

2025-01-20 00:03:25 1143

原创 单细胞组学大模型(8)--- scGenePT,scGPT和GenePT的结合,实验数据和文本数据的交融模型

GenePT模型中已经证明使用基因的文本信息(NCBI gene数据库中对基因的描述),可以执行细胞聚类、基因调控网络和疾病状态预测的生物学任务,但并没有做对基因扰动预测的任务。所以,scGenePT模型是把基因文本数据和单细胞测序数据结合起来,实现更好的基因扰动预测的任务。基因文本信息包含:NCBI基因card的描述、Uniport数据库的蛋白描述、基因功能注释。

2025-01-12 21:51:13 1165

原创 单细胞组学大模型(7)--- GenePT,一个可以在本地部署和使用的单细胞转录组大模型

单细胞测序领域正在兴起一股开发“基础模型”的热潮,目的是学习基因和细胞的embedding表示,促进各种下游分析。

2025-01-05 18:47:59 1200

原创 nature reviews genetics | 怎么从组学-深度学习模型结果中,获取基因相关的解释?

深度学习因其卓越性能在遗传学领域产生了深远的影响,从基因组注释到单细胞数据的分类,各类预测任务中都能见到它的身影。然而,由于模型复杂性,它常被视为“黑箱”,难以理解其预测逻辑。随着数据生成成本下降与计算硬件不断进步,AI在遗传学领域的多样化任务中表现出色。理解深度学习模型如何进行预测,能够深入生物过程,但解释复杂数据集等同于解释复杂模型,而这需要巨大的计算成本。

2025-01-02 22:08:05 1135

原创 nature reviews genetics | 需要更多的针对不同种族的癌症基因组图谱研究,促进精准治疗和维护治疗公平权益

癌症发病率和死亡率在不同种族、族裔中存在显著差异,这是一个重要的公共卫生问题。这些差异是遗传、环境和社会因素复杂相互作用的结果。虽然在研究遗传风险因素和肿瘤基因组方面取得了进展,但大多数研究集中在欧洲血统的个体中,导致对其他族裔群体的了解不足。利用组学技术研究不同种族和族裔群体的癌症遗传学,有助于识别遗传特征和癌症基因组分子特征的异同,从而缩小癌症方面的差距,并确保个体化医疗的公平性。新的多组学、单细胞和空间技术正在产生大量数据,这些数据有可能提高我们对种系和体细胞遗传学对癌症机制和结果影响的理解。

2025-01-02 22:03:13 657

原创 nature reviews genetics | 填补SNP研究空白,CNV-GWAS推动遗传变异全景构建

全基因组关联研究 (GWAS) 在揭示复杂性状和疾病的遗传基础方面取得了显著成就,尤其是通过对常见 SNP 的分析。专用存储库(如 NHGRI-EBI GWAS)目前包含来自 90,000 多个 GWAS 的 50 多万个主要关联,它以开放、一致和可靠的方式向科学界提供专家精选的结果和基础汇总统计数据。利用GWAS结果和meta数据是实现下游有效应用的关键,例如 Open Targets Platform 通过孟德尔随机化进行因果推断或将数据纳入药物发现流程。

2024-10-13 00:23:01 1282

原创 单细胞组学大模型(6)--- LangCell,医学/细胞文本知识增强模型效果

目前,用于表示单细胞数据的模型已经取得了显著进展。然而,这些模型在理解细胞身份这一关键生物学问题上仍存在一些挑战:1.对人类专家知识的利用不足: 现有的模型主要通过自监督学习来捕捉基因之间的共表达关系,但未能充分利用人类专家对细胞类型的深入理解。这限制了模型在理解细胞身份方面的能力,从而影响其在下游任务中的表现。2.缺乏细胞与文本/标签的配对数据: 细胞身份信息通常由人类专家通过自然语言描述。然而,现有的模型难以直接将这些文本信息与单细胞数据关联起来,这阻碍了模型对细胞身份的深入理解。

2024-10-07 17:00:17 1325

原创 nature reviews genetics | 基因调控网络方法总结

染色质、转录因子和基因之间的相互作用产生了复杂的调控回路,可以把这调控回路表示为基因调控网络 (GRN),调控结果的表现形式之一是转录(基因表达)的改变。转录主要由转录因子 (TFs) 调控,这些转录因子是能够结合到特定 DNA 序列(DNA 结合位点)上的蛋白质,它们可以影响基因的转录速率。基因组 DNA 紧密地与结构蛋白包装成核小体(染色质的基本单位)复合物,使得大多数基因对于转录机制是不可及的。为了使转录发生,基因转录起始位点附近的区域(启动子)需要通过把核小体移开使其暴露展现出来。

2024-10-02 13:35:42 3579

原创 单细胞组学大模型(5)--- scFoundation,1亿参数量,非对称encoder-decoder

左边一列是单个细胞的原始raw count 矩阵,先计算一个基因表达值的和“T”,然后每个基因贝叶斯下采样后得到中间一列,并计算一个下采样后的基因表达值的和“S”,最后对这个下采样的结果进行随机masked(0值部分随机masked 3%的,非0值有30%),拼上“T”和“S”,组成一个19266长度的向量,送到xTrimoGene模型中。,意味着在整个细胞样本中,经过下采样处理后,每个细胞的total count(基因表达值的总和)的期望值是原始细胞total count的。

2024-09-29 15:02:00 1171

原创 单细胞组学大模型(4)--- scMulan,生成式单细胞大模型

scMulan是清华-张学工团队的研究成果,模型架构基于transformer的decoder,做成了生成式模型。

2024-09-17 23:34:26 1806

原创 nature reviews genetics | 细胞互作和通讯方法总结

没有细胞是孤立存在的,细胞之间的分子相互作用决定了大多数表型。高通量实验技术的进步,特别是单细胞和空间转录组学的应用,进一步推动了CCI研究的深入,包括构建高置信度的LRIs数据库和开发用于分析CCIs的模型工具。简而言之,预测CCIs的过程涉及筛选基因表达矩阵中的配体和受体基因,汇总特定细胞类型的表达水平,评估候选LRIs,并计算通讯评分,以识别显著的相互作用。此外,结合正交方法来评估分子和细胞的共定位,将有助于识别更多的CCIs,克服测量相互作用的障碍(例如,在缺乏源细胞信息的方法中识别源细胞)。

2024-09-15 19:59:56 1776

原创 38篇单细胞组学大模型相关文献汇总!有需自取!

简单整理了一下单细胞大模型相关的文章,也方便自己刷手机的时候浏览下。

2024-09-07 17:41:07 1335

原创 单细胞组学大模型(3)--- scGPT,有非常详细的学习文档和应用说明,且有多种训练数据权重!

多种组学:scRNA-seq, scATAC-seq, CITE-seq, Spatial transcriptomics;33 Million 的单细胞RNA数据 / cross-tissue, human, non-disease;来源于CELLxGENE数据库数据预处理:先用raw count矩阵,scRNA-seq是RNA分子的read count数目,scATAC-seq则是染色质可及性的peak region。都需要处理成cell-by-gene的矩阵形式。

2024-09-03 19:18:38 2103 2

原创 单细胞组学大模型(2)--- scBERT,已开源详细代码,且有预训练模型权重,可自行DIY!

scBERT模型是2022年腾讯的Healthcare AI实验室研发的,它和基础BERT模型架构相似。和iSEEEK模型相比,它的策略是用上基因表达的数据,并把transformer块换成performer块。接下来仔细的看看它的设计策略,和关键部分的代码怎么实现的。

2024-08-27 17:12:58 1716

原创 Nature methods | FlowSig--揭示细胞间流动网络新方法!有具体代码可实操!

我们可以从单细胞 RNA 测序 (scRNA-seq) 和空间转录组学 (ST) 中提取高维基因表达模式,这些模式可以通过细胞间通讯网络或解耦基因模块来描述。这两种信息流描述通常被认为是独立发生的。然而,细胞间通讯驱动由细胞内基因模块介导的定向信息流,进而触发其他信号的流出。目前描述这种细胞间流动的方法尚不完善。FlowSig 是一种新方法,用于从单细胞 RNA 测序 (scRNA-seq) 和空间转录组学 (ST) 数据中由配体-受体相互作用描述的定向细胞间流动,从而挖掘出驱动组织规模的基因表达模式。

2024-08-27 17:03:07 1863

原创 单细胞组学大模型(1)--- iSEEEK

这些相似性用于进一步的 Markov 链构建和扩散映射分析。

2024-08-22 21:59:45 934

原创 生物研究新范式!AI语言模型在生物研究中的应用

尽管生物学从根本上依赖于物理实体(蛋白质、基因和细胞)的特性,但我们对该领域的理解是通过科学论文、教科书、网页等以自然语言记录的。因此,人们越来越有兴趣使用自然语言模型,让生物学研究人员可以轻松访问这些书面资源中包含的大量生物学信息。此外,自然语言模型可以通过来自其他模态(例如图像或基因序列)的数据进行扩充,以形成多模态模型,从而可以洞察各种形式的生物实体。

2024-08-18 22:33:23 1220

原创 Transformer在单细胞组学中干了啥?

细胞表型参考图谱的构建(已有很多篇超百万级单细胞的多组学图谱),极大丰富了单细胞组学数据的数量和多样性,为研究复杂的细胞特性提供了巨大的数据资源。但是呢,虽然目前拥有丰富的数据,而且它们还在持续增长,但是目前的分析方法在捕捉各种大规模单细胞数据集的变化方面存在不足,不断的 push 新型计算策略的发展。Transformer 已成为其他领域基础模型的首选架构,因为它们能够泛化到异构的大规模数据集。Transformer 最初是为自然语言处理 (NLP) 任务而设计的,最近被用作跨领域关键基础模型。

2024-08-15 22:15:55 1181

原创 BIORAG: RAG+LLM在生命科学领域的玩法

接下来,系统会通过Prompt #1提示,选择合适的工具或检索方法。3.对于蛋白质编码基因任务,在应用简单的词汇映射后,我们认为精确匹配是正确的,该词汇映射将模型预测的“是”/“否”转换为“真”/“NA”,并将拉丁物种名称转换为它们的非正式名称。使用基因-疾病关联任务,目标是返回给定疾病的相关基因,以及蛋白质编码基因任务,该任务询问基因是否为蛋白质编码基因。(3)基础模型:(M1)以 Llama-3-8B 作为基础 LLM,(M2)以 Llama-3-70B 作为 BioRAG 的基础 LLM。

2024-08-12 18:19:07 1347

原创 Nature | 华大携手瑞典乌普萨拉大学发表地表最大规模结直肠癌多组学研究(结直肠癌的预后基因组和转录组特征)

约 20% 的结直肠癌 (CRC) 患者在诊断时已患有转移性疾病,另有 20% 的患者将在以后疾病进程中发生转移。结直肠癌是由一系列体细胞基因组变异引起的,这些变异会影响核心癌症通路中的驱动基因。从外显子组和全基因组测序来看,CRC 的突变景观在编码区最为明显,而非编码区仍未得到充分研究。约 80-85% 的 CRC 被归类为拷贝数改变的微卫星稳定 (MSS),10-16% 被归类为高度突变且微卫星不稳定性 (MSI),1-2% 被归类为由体细胞 POLE 突变导致的超突变。

2024-08-09 12:12:43 1640

原创 nature immunology | BACH2调控“调节性”和“促炎性”TH17细胞的染色质多样化状态

平衡促炎和调节性 CD4+ 辅助 T 细胞亚群的重要性:既可以抵抗病原体和肿瘤,还能避免不受控制的炎症和自身免疫。TH17 细胞的双重角色:TH17 细胞通过产生 IL-17 在宿主防御细胞外病原体和维持粘膜屏障稳态中起关键作用,但它们也是自身免疫性疾病的重要致病因素。非致病性 TH17 (npTH17) 细胞在体外由 IL-6 和 TGFβ 分化,几乎不引发组织炎症。致病性 TH17 (pTH17) 细胞由 IL-6、IL-1β 和 IL-23 共同作用产生。

2024-08-05 21:16:02 1632

原创 Signac包-2.联合10x多组学分析:scATAC-seq和scRNA-seq

看文章看累了来看看代码,换换口味。本章主要涉及peaks to genes的联动。

2024-08-03 13:33:09 1328

原创 Signac包-1.Analyzing PBMC scATAC-seq

好的,开始学习scATAC-seq的数据是怎么玩的了,先跑完Signac的教程,边跑边思考怎么跟自己的课题相结合。

2024-07-31 23:32:29 1429

原创 Science | 单细胞 eQTL 定位可识别自身免疫性疾病的细胞类型特异性遗传调控

基因表达在免疫细胞中的个体差异既是免疫相关疾病易感性的原因,也是其结果。研究发现多种遗传变异影响免疫调节和疾病发展。然而,由于循环免疫群体的复杂性,这些变异的作用机制难以解析。通过结合转录谱和遗传变异,可以识别基因表达的调控因子,尤其是全基因组关联研究(GWAS)中与常见免疫疾病相关的调控区变异。有研究表明,这些变异多通过改变基因表达而非直接影响蛋白质功能发挥作用。利用bulk RNA测序与遗传信息结合,发现了表达数量性状位点(eQTL),其中很多是组织特异性的,但难以揭示单细胞间的基因表达异质性。

2024-07-29 20:18:47 1241

原创 Nature | 单细胞 eQTL 模型揭示疾病位点的动态 T 细胞状态依赖性

全基因组关联研究(GWAS)已经将非编码变异与调控区联系起来,这些变异可能通过调节基因表达导致疾病。然而,这些变异对基因表达的影响(eQTL)并不能完全解释其致病性,因为eQTL的效应大小会因细胞状态、细胞类型组成和环境变化而不同。特别是在T细胞中,其功能状态由表面标志物、细胞因子、转录因子或转录组程序定义,这些状态是连续且动态的。例如,TH17细胞可以转变为与结核病相关的TH17/1细胞。

2024-07-28 16:35:42 1425

原创 nature reviews genetics | 单细胞基因组eQTL发展历程

尽管组织水平 eQTL 在 GWAS 中富含与疾病相关的遗传变异,但只有 20-50% 的常见疾病等位基因与 eQTL 共定位,这表明许多变异通过细胞状态特异性机制影响生物学,而且有的eQTL效应可能仅在特定细胞类型或条件下检测到(如response eQTL),如果不采用全新的方法,就无法识别这些机制。虽然首次绘制的sc-eQTL仅限于15个淋巴母细胞系中的WNT通路基因,但研究证明了SNP与单个细胞间的转录变异和相关性相关,提供了概念的初步证明,强调了单细胞解析在遗传研究中的价值。

2024-07-24 13:19:39 1770

原创 nature methods | 单细胞转录组学的大基础模型scFoundation的具体细节

留意更多内容,欢迎关注微信公众号:组学之心1.预训练数据收集和处理1.1 数据收集人的 scRNA-seq 数据存放在数据主要从GEO、HCA、Single Cell Portal、EMBL-EBI、hECA、DISCO中获取。每个数据集都有链接到已发表的论文,具有相应的论文DOI ID。本研究从这些数据库中人工收集数据,并删除具有重复ID的数据集。数据集包含健康人、各种疾病、各种癌症类型的各种组织的样本,有的 5000 多万个单细胞,代表了人类单细胞转录组的全谱。研究将所有数据分为训练数据集和

2024-07-21 00:05:59 1456

原创 nature methods | 单细胞转录组学的大基础模型scFoundation(宋乐/张学工/马剑竹)

大型预训练模型正变革自然语言处理和相关领域,成为通用人工智能的新范式。在海量语料上训练出来的模型,能够识别语言中的模式和实体关系,在许多下游任务的突破性进展中发挥了基础性作用。在生命科学中,细胞是人体的基本结构和功能单位,它的“语言”由DNA、RNA、蛋白质和基因表达值等无数的“词”组成“句子”。怎么基于海量细胞“句子”开发细胞的基础模型呢?其中单细胞RNA测序(scRNA-seq)数据十分庞大,为开发细胞基础模型提供了丰富的资源。

2024-07-12 00:22:11 3461

原创 10x Visium HD数据分析

虽然之前的分析独立地考虑了每个细胞,但空间数据不仅可以通过其邻域来定义细胞,还可以通过其更广泛的空间信息来定义细胞。Seurat在这里使用了BANKSY,它对识别和分割组织结构域特别有价值。当进行聚类时,BANKSY通过bins的更宽邻域中基因表达水平的平均值和梯度来增强bins的表达模式。

2024-07-10 20:35:14 2376

原创 nature methods | 11种空间转录组学技术的系统性比较

基于测序的空间转录组学(sST)促进了空间基因表达测量的发展,sST 能够在保留组织空间信息的同时进行全面的转录组学分析。尽管基于成像的空间转录组学已经开展了基准测试,但sST 仍处于早期发展阶段,尚未进行系统的基准研究。sST 技术在使用空间 DNA 条形码等方面具有共同特征,其在空间分辨率和条形码阵列制备方面存在显著差异,这使得方法选择和评估标准的制定变得复杂。目前缺乏对不同平台的全面基准测试,技术和数据集的差异性使标准化评估指标的制定变得困难。①设计参考组织的难度:空间转录组学参考组织的设计更为复杂。

2024-07-07 15:39:56 2991

原创 Diffusion模型的微调和引导

微调(fine-tuning):从一个已经训练过的模型开始训练,我们就可以从一个学会如何“去噪”的模型开始训练,相对于随机初始化的模型也许是一个更好的起点。如果新的数据和原来模型训练用的数据比较相似的死后,微调的效果会很好。引导(guidance):在生成模型中,如果没有提供特定的条件(比如图像的某些特征或文本的某些关键词),模型通常不能控制生成的内容。因此,我们可以训练一个“条件模型”,通过给模型额外的输入信息来控制生成过程。但是,如果我们使用的是一个没有条件的模型,该怎么实现相同的控制效果呢。

2024-07-04 21:27:52 795

原创 Cell | 泛癌蛋白基因组学分析,揭示癌症治疗靶点(章冰/高强)

研究背景和数据来源:蛋白质是分子靶向疗法的主要靶点,但是现有FDA批准的抗癌药物靶向的蛋白质不到 200 种。研究整合了临床蛋白质组肿瘤分析联盟(CPTAC)提供的来自10种癌症类型、1,043 名患者的蛋白质基因组学数据,与其他公共数据集结合,以确定潜在的治疗靶点。主要研究发现:1.研究对 2,863 种可用药蛋白质的全癌分析揭示了广泛的丰度范围,确定了影响mRNA-蛋白质相关性的生物学因素,蛋白质丰度并非完全由mRNA水平决定,而是受到多层次调控的结果。

2024-07-02 00:28:51 1329

原创 Diffusers的入门实操(很好玩)

上一篇推文介绍到,可以考虑用UNet类的模型,能够接收和输出相同shape的噪音图像。in_channels=3, # 输入的通道,RGB图像是3out_channels=3, # 输入的通道数layers_per_block=2, # 每个UNet块需要多少层RestNet"DownBlock2D", # ResNet下采样"AttnDownBlock2D", # ResNet下采样模块,有空间自注意力机制),"AttnUpBlock2D", # ResNet上采样模块,有空间自注意力机制。

2024-06-29 19:04:28 2308

原创 Nature | 3D 基因组图谱揭示人类胰腺癌前病变PanIN的多灶性

胰腺上皮内瘤变(PanIN)是胰腺癌(尤其是胰腺导管腺癌,PDAC)最常见的前体,其体积小且在人体内难以接近,无法肉眼识别,研究起来具有很大困难。传统的2D组织学切片方法无法全面了解PanIN的数量、尺寸、形状及其在组织内的连通性,无法深入了解早期癌症的发展PanIN具有普遍性和多灶性:通过3D方法,我们能够对人类胰腺组织中的PanIN进行定量分析,发现一个完整的胰腺可以包含数百个PanIN。这种高负荷量显示出单个PanIN的进展风险极低。

2024-06-29 19:01:10 1325

原创 Cell | Open-ST 高分辨率3D空间转录组学技术绘制亚细胞精度的组织图谱

Cell | Open-ST 高分辨率3D空间转录组学技术文献解读

2024-06-28 00:31:57 1677 2

原创 Diffusion模型DDPM实操

*

2024-06-25 23:14:08 1279

原创 Diffusion(扩散模型)原理

–https://arxiv.org/abs/2006.11239留意后续更新,欢迎关注微信公众号:组学之心Diffusion(扩散模型)原理扩散模型的相关工作大都起源于 OpenAI 于 2020 年提出的降噪扩散概率模型(Denoising Diffusion Probabilistic Models,DDPM)。DDPM 包含前向过程(Forward Process)和逆向过程(Reverse Process)前向过程,称为扩散过程(Diffusion Process),本质上是在输入图像

2024-06-24 23:39:17 1009

原创 第三章 卷积神经网络-4(ResNet & DenseNet)

ResNet(Residual Neural Network),又叫做残差神经网络,是由微软研究院的何凯明等人2015年提出,获得ImageNet ILSVRC 2015比赛冠军;获得CVPR2016最佳论文奖。

2024-05-25 21:39:57 917

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除