- 博客(122)
- 收藏
- 关注
原创 简单方法胜过大语言模型?!单细胞扰动敲除方法的实验
如果对细胞进行一个或多个基因敲除扰动(红色部分,比如通过实验干预特定基因的活性),会导致一些基因表达水平发生变化(紫色部分),这种变化可能是增强、减弱或保持不变。先进的深度学习方法,如基于 transformer 的基础模型,被认为能够学习单细胞中的基因表征,这些表征可以用于预测未见实验的结果,例如预测基因扰动敲除对其它基因转录表达的影响。与之相对, "加性模型" 则采用传统的线性思维,认为组合扰动敲除两个基因的效果,就是单独扰动每个基因效果的简单相加随后减去基线(预测基因扰动后的基因表达变化。
2025-03-26 10:52:19
545
原创 美国国立卫生研究院经费仍然被冻结!存储超300万组基因数据的“数字方舟”或将面临资金断流
2025年1月20日,唐纳德·特朗普宣誓就职美国第47任总统,标志“特朗普2.0”时代的正式开启。从首日行政令剑指《巴黎气候协定》到系统性裁撤科研机构,这场“科学寒冬”的连锁反应正以惊人速度蔓延。在诸多危机中,一项潜在威胁对于国际生物研究者即为致命:对公共科学数据库的冲击——尤其是作为生命科学基石的基因表达数据库(GEO)。当政治意志与科学自由激烈碰撞,全球研究者担忧,这座存储超300万组基因数据的“数字方舟”,或将面临资金断流、审查加码与数据孤岛化的三重绞杀……
2025-03-26 10:48:55
748
原创 多组学基因挖掘神器!空转+GWAS,将空间信息映射到人类复杂性状及疾病(gsMap)
为此,来自西湖大学的杨剑团队提出遗传学驱动的复杂性状空间细胞定位方法gsMap,通过整合高分辨率ST数据与GWAS汇总统计数据,实现性状相关细胞的空间解析定位。研究团队利用覆盖25个器官的胚胎ST数据集,通过模拟实验验证了gsMap的性能,并通过复现已知的性状相关细胞或区域证实了其敏感性。值得注意的是,杨剑团队同时也开发了SMR软件,所以这个工具还是有很大的学习价值的(尽管现在还处于预印本阶段)。
2025-03-26 10:47:30
973
原创 细胞内与细胞间网络整合分析!神经网络+细胞通讯,这个单细胞分析工具一箭双雕了(scTenifoldXct)
生信碱移scTenifoldXct,一种结合了细胞内和细胞间基因网络的计算工具,利用 scRNA-seq 数据检测细胞间相互作用。单细胞 RNA 测序(scRNA-seq)能够以稳健且可重复的方式同时收集数万个细胞的转录组信息。利用 scRNA-seq 数据,可以通过复杂组织中细胞特异性配体-受体(LR)的映射来研究细胞通信网络。不断发展的 scRNA-seq 数据空间已经催生了许多用于挖掘细胞间通信信息的计算工具。然而,在检测结果中获得可靠的统计置信度仍然难以实现。
2025-03-26 10:46:27
437
原创 同时调用多种单细胞基础模型?!这个工具务必要用到自己的课题中(BioLLM)
单细胞 RNA 测序(scRNA-seq)通过实现高分辨率转录组分析,彻底改变了传统分子生物学。已经开发了几种基础模型来分析大规模的单细胞测序数据,如 scBERT, Geneformer, scGPT 和 scFoundation。然而,这些模型不仅在架构设计和预训练策略上表现出一定差异,而且数据集大小和参数数量也有所不同。
2025-03-26 10:45:13
705
原创 没有分组信息怎么找到重要的通路基因集?!单细胞与空转分析适用(GESECA算法)
单细胞与空间多组学让我们能够在细胞/空间分辨率的情况下观察病理或生理相关的转录变化。基因集是一组具有类似功能或相同途径的基因集集合,在多组学分析中,常常观察特定基因集的表达变化来推断相应功能途径的活性。举个例子,在一些肾炎相关疾病中,铁死亡基因集发生显著表达变化影响疾病进展。常规的分析流程基于分组数据进行比较,比如 GSEA 使用 logFC 排序的基因列表观察特定基因集的表达变化。尽管如此,大多数据中通常没有明显的分组信息用于差异分析。一般来说,同一个基因集内部的基因变化是密切相关的。
2025-03-26 10:44:04
411
原创 空间多组学五大算法:cell2location + mistyR + Hotspot 精准解锁组织微环境,高分文章标配!
借助hotspot更精准识别感兴趣部位,完成基因集or细胞类型的空间位置识别Hotspot:①可以为你提供特定基因集的高富集区域识别,减少假阳性的存在;下面这篇来自 JTM [IF6.1] 的文章就借助了公共单细胞数据和公共空间转录组数据,完成了亚群级别的反卷积,最后结合细胞共定位的技术完成了感兴趣细胞的分析,为研究增色不少。在这些分析之外,还可以借助空间转录组受配体共定位,基于KNN算法计算每个spot最邻近的6个spot的配受体共定位情况,更好的为cellchat等分析结果做解释。
2025-03-26 10:37:04
308
原创 进阶版孟德尔随机化方法!遗传变异聚类+异质性检验,避免水平多效性带来的假阳性结果(PCMR)
探究复杂性状之间的因果关系并确定疾病的因果风险因素,对于揭示各种疾病的病因学至关重要。孟德尔随机化 (Mendelian Randomization, MR) 是一种利用遗传变异作为工具变量(IVs)推断暴露因素(如血脂)与结局(如心血管疾病)间因果关系的统计方法。MR 本质的目标是去判断暴露是否会影响结局,这与一些队列观察性研究的目标是一致的(探索血脂是否会影响心血管疾病)。其核心假设是工具变量需满足以下条件:关联性:工具变量与暴露因素强相关;独立性:工具变量与混杂因素无关(如环境因素);
2025-03-26 10:35:32
641
原创 使用TCGAbiolinks的GDCQuery_clinic函数时遇到报错:错误于set(x, j = name, value = value)
使用TCGAbiolinks的。
2025-03-05 17:48:57
230
原创 如何筛选重要的空间Spot点!空转+GWAS,将空间信息映射到人类复杂性状及疾病(gsMap)
为此,来自西湖大学的杨剑团队提出遗传学驱动的复杂性状空间细胞定位方法gsMap,通过整合高分辨率ST数据与GWAS汇总统计数据,实现性状相关细胞的空间解析定位。研究团队利用覆盖25个器官的胚胎ST数据集,通过模拟实验验证了gsMap的性能,并通过复现已知的性状相关细胞或区域证实了其敏感性。值得注意的是,杨剑团队同时也开发了SMR软件,所以这个工具还是有很大的学习价值的(尽管现在还处于预印本阶段)。
2025-03-05 09:38:05
708
原创 【CrossEntropyLoss】TypeError: __init__() got an unexpected keyword argument ‘label_smoothing‘
是直接使用自定义的交叉熵损失,附有label_smoothing的参数设置。麻烦的解决方案: 升级torch版本,比如。: torch版本问题,用的是可能是。
2025-03-05 09:34:54
168
原创 看到这样一个多组学可视化神器!生信人是时候学起 python 了(Marsilea 入门教程)
生信碱移Marsilea 库随着数据集规模和复杂性的指数级增长,科学研究和数据分析领域对数据可视化工具提出了更高的要求。然而,传统的数据可视化工具在处理多特征、多维度数据时往往面临显著挑战,难以直观展示数据之间复杂的交互关系或揭示隐藏的模式。为了解决这一痛点,来自澳门大学的研究者提出了 Marsilea,于2025年1月6日见刊于Genome Biology [IF:10.1]。Marsilea 是一个使用声明方式创建可组合可视化图表的Python库。它基于Matplotlib,可以像拼图一样组合不同的可视
2025-02-16 09:42:52
767
原创 68 种单细胞批次整合方法的比较,作者附上了分析的代码,做大规模数据库挖掘的同学好好学习一下
该研究通过搭建单细胞整合评估平台(scIB),在13个整合任务(含2个模拟任务、5个 scRNA-seq 任务和6个 scATAC-seq 任务)上。为检验方法的准确性、可用性和可扩展性,研究设计了14个性能指标从批次效应移除与生物学变异保持两大维度进行量化评估;同时,考虑了多种输出格式(嵌入、矫正矩阵、集成图等)及不同的预处理策略(含/不含缩放与高变基因筛选)。
2025-02-16 09:40:31
1231
原创 这个 R 包厉害了!可以在 R 语言构建多种神经网络模型,连图像分割这种复杂任务也可以完成(Rtorch教程示例)
生信碱移Rtorch经典的统计方法和简单的回归模型在面对复杂的非线性问题时,往往难以有效捕捉数据中的深层次特征。深度学习能够从数据中自动学习特征并进行复杂模式的建模,特别是在图像识别、自然语言处理和基因组学等领域表现卓越。▲ 关于神经网络的易懂讲解,可以点击此处蓝字查看小编的另一篇文章。尽管如此,生信用户最常使用的代码框架是 R 语言,而当前的主流神经网络框架 (如PyTorch) 大多基于 Python,这难免会存在一些学习成本。Rtorch 包针对这种情况而被设计,它允许用户在 R 环境中享受PyTor
2025-02-16 09:39:43
859
原创 Transofomer+图表示学习,16种泛癌的纯数据库深度学习又又又登上顶刊了!!!这篇文章教你怎么将 Transofomer 用到疾病数据集中!
生信碱移来自中国科学院的研究者开发了一个基于转换器的图形表示学习(TREE)框架,着力于癌症基因识别任务中的可解释性和可推广性。神经网络在解析复杂生物网络或者是多模态数据方面有非常大的优势。先前小编分享了一篇基于的泛癌框架,纯数据库挖掘+简单架构(超低成本)登上了顶刊。▲:通过训练数百个VAE模型提取癌症样本的潜在变量。每个VAE模型具有不同的潜在维度大小,并进行100次随机权重初始化。使用这些模型对癌症样本编码后,生成多组潜在变量。
2025-01-13 21:58:20
686
原创 导入R包或者安装R包时遇到报错:shared object‘XXXX.so’ not found
对于这个报错示例来说就是。随后重启以后即可正常使用了。
2025-01-08 15:00:26
266
原创 CommPath包:从单细胞转录组学推断和分析通路介导的细胞间通讯
r包安装及引用#引用R包生成seurat对象#设置目录并读取data文件夹下的10X文件data_dir = paste0(getwd(),"/data") #路径必须中文# 简单创建一个seurat对象“sample”,每个feature至少在3细胞中表达同时每个细胞中至少200个feature被检测到# 计算一下线粒体与核糖体基因的百分比,在sample@meta.data添加列名"percent.mt"与"percent.rb"# 质控# 标准化# 简单降个维# 分一下cluster。
2025-01-07 16:37:29
589
原创 免费生物医学绘图素材数据库,由美国国立卫生研究院下属机构开发!
应对网络上大量不准确的医学图像,NIH BIOART Source 提供经过专业审核的资源,确保图像的高精确性和权威性,助力科学应用与传播。🤩强调一下,该资源暂时还是初始发布(2024年10月7日),后续还会不断扩充图像库,都是支持矢量图片的高质量图片!👥 适用人群: 无论是科研、教学还是医疗领域,NIH BIOART Source 向所有人开放,免费使用,无需注册账号。2. 免费&开放下载:支持多格式下载(AI、SVG、PNG、EPS),便于各类项目编辑与集成。
2025-01-05 12:36:26
731
原创 差异火山图可视化!让你的火山图加上蛋白互作信息
生信碱移火山图是差异分析的常见可视化方式,但它携带的信息实在是太少了,甚至没有放进论文组图的必要。在这里,小编考虑到火山图的散点比较多,估摸着能把蛋白互作 (PPI) 信息也一起放进去。
2025-01-05 12:34:33
258
原创 单细胞究极美图!scRNA-seq工作流程示例,图片美化
近期,小编找到一篇基于 Seurat 分析框架的 scRNA-seq 工作流程示例,从转录本计数表到细胞类型注释进行了丰富的图表可视化,示例分析具体使用的是健康骨髓捐赠者公共数据集 GSE120221 中的三个样本。
2025-01-05 12:33:41
412
原创 深度生成解码器模型:在没有对照样本的情况下进行单样本差异分析
在这里,来自哥本哈根大学计算机科学系的研究人员介绍了一个仅在健康组织上训练的生成模型,该模型取代了对照样本。最后,批量测序数据的一个普遍问题是样本在细胞类型组成上的差异。正是由于DGD即使在单一样本上也具有出色的表现,这提示他们的模型在罕见病的应用上具有很高的潜力。尽管差异表达分析具有巨大潜力,但目前使用的分析方法经常产生难以重复的结果,可能会返回成千上万的显著DEGs,这使得临床解释变得充满挑战。针对这个问题,研究者提出了一个正常组织基因表达模型,用以替代对照样本,并使癌症的差异表达分析仅需一个样本。
2025-01-05 12:32:18
633
原创 免疫浸润分析算法大全,哪种更好?
混合物以50%的固定纯度合成,使用正常上皮细胞的三种次要细胞类型和其他八种主要细胞类型(癌症上皮、T细胞、B细胞、髓系、内皮、CAFs、浆母细胞和PVL)。细胞类型(y轴)分为四类:癌症上皮、正常上皮(腺泡前体细胞、成熟腺泡和肌上皮细胞)、免疫细胞(T细胞、B细胞和髓系细胞)和间质细胞(内皮细胞、CAFs、PVL和浆母细胞)。主要细胞类型(y轴)分为三类:上皮细胞(正常上皮和癌症上皮)、免疫细胞(T细胞、B细胞和髓系细胞)和间质细胞(内皮细胞、CAFs、PVL和浆母细胞)。
2025-01-05 12:27:46
1408
原创 IMPACT:肿瘤免疫在线分析数据库
相互作用分析模块的结果显示,ATM突变与仅接受ICI治疗的患者的延长生存期显著相关(而非其他治疗的患者),且交互作用的p值显著(见图3F),这表明ATM突变是针对ICI治疗的特定预测性生物标志物。尽管IMPACT为生物标志物探索提供了全面的功能(见原文补充表S4),但仍需要进一步的生物学或临床验证来确认这些已识别的生物标志物。总的来说,IMPACT是一个用户友好的平台,提供了更多数据集和功能,用于复杂的预测性和/或预后性生物标志物、相互作用效应及潜在生物机制的全面探索,从而简化了研究人员的生物信息学分析。
2025-01-05 12:26:08
1194
原创 Nature 子刊的 WGCNA 都是咋整的?
阿片类物质使用障碍(OUD)受基因和环境因素的影响。尽管最近的研究表明OUD存在表观遗传学异常,但这主要限于DNA甲基化(5mC)。DNA羟甲基化(5hmC)的研究相对较少。我们在男性队列中进行了OUD的多组学分析,整合了特定于神经元的5mC和5hmC以及来自人类尸体前额叶皮质的基因表达(OUD=12;非-OUD=26)。单个位点的甲基组分析和共甲基化分析显示,与5mC相比,5hmC具有更多与OUD相关的基因和基因网络;这些网络富集了GPCR、Wnt、神经发生和阿片类信号传导。
2025-01-05 12:24:29
1060
原创 DeepSurv:Cox比例风险深度神经网络模型(神经网络+疾病预后模型)
当下,医学研究者使用生存模型来评估预后变量在如死亡或癌症复发等结果中的重要性。一个常用且标准的生存模型是Cox比例风险模型 (CPH)。CPH 是一个半参数模型,用于计算观察到的协变量对事件发生(例如“死亡”)的风险的影响。CPH 一般被认为是线性的,是因为它假设给定的协变量和风险之间的关系是对数线性的。具体来说,模型的基本形式是:其中:当我们考虑对数风险(也就是风险的对数),这种关系就变成了线性的:然而,在许多应用中,假设对数风险函数是线性的可能过于简化。因此,需要一个更灵活的生存模型来拟合具有非线性对数
2025-01-05 12:23:02
1757
原创 sechm包:简化ComplexHeatmap热图绘制
本文介绍了一款旨在简化 complexHeatmap 绘图难度的包装工具。是一个 Bioconductor 包,旨在简化从 SummarizedExperiment 对象创建带注释的热图。它是围绕 ComplexHeatmap 包的一个包装器,提供了更简单的接口来生成热图。其主要特点有:简化从 SummarizedExperiment 对象生成热图的过程。提供多种颜色和注释选项,以定制热图的外观。支持行和列的排序、聚类和注释。支持通过ComplexHeatmap参数进行绘图,允许高度定制。
2025-01-05 12:17:02
445
原创 在线分子对接工具:全自动的蛋白-配体盲对接计算(CB-Dock2)
CB-Dock2服务器通过下面4个步骤实现了全自动的蛋白-配体盲对接计算(1)蛋白和配体结构数据的输入和质量检查;(2)结构数据预处理,修补缺失原子及氢原子、去除水分子及其他杂原子;(3)蛋白口袋探测、空间参数估计、基于Vina打分的分子对接、基于模板匹配与构象转移的分子对接;(4)计算结果的综合处理与可视化。CB-Dock2服务器在配体输入模块新添加了分子绘制的功能,方便分子结构数据的导入,同时支持用户提交的蛋白-配体复合物作为模板。
2025-01-05 12:14:44
1434
1
原创 scATAC做转录因子调控网络?这个工具了整合大规模人类/小鼠参考,推荐大家学习收藏(SCRIP)
生信碱移SCRIP近年来,单细胞技术如scATAC-seq使得在单细胞水平上解析全基因组染色质可及性成为可能,这对于研究转录调控因子(TR,包括转录因子TF和染色质调控因子CR)的作用至关重要。目前仍然存在一些不足:①scATAC-seq只能反映总体调控潜力,无法识别特定TR的结合;②基于motifs的方法(如chromVAR、SCENIC等)难以区分相似motifs的同家族TF,且无法评估非直接结合DNA的CR。另一方面,ChIP-seq是一种在群体细胞水平上直接解析TR结合的手段,其结合位点的准确性高于
2025-01-04 11:01:29
1063
原创 miRTalk包 教程:使用单细胞测序数据推测外囊泡来源 miRNA 介导的细胞通讯网络!
需要的输入数据介绍如下单细胞 RNA 测序的基因表达矩阵:行为基因/列为细胞,data.framematrix, 或dgCMatrix格式皆可。细胞注释:数据集中每个细胞对应的细胞类型样本分组:每个细胞的分组情况/或者其它描述皆可,只有一个组别也可# 基因表达矩阵# 每种细胞对应的类型,这里一共有5种细胞类型# 每个细胞对应的样本分组,这里只有一组,可以使用rep函数生成。
2025-01-04 11:00:07
1167
原创 万字教程:机器学习的数学基础(易读)
样本与总体」样本(Sample)是指从总体中选择的一部分观察结果或数据点的集合。在统计学和机器学习中,样本用于对总体进行推断和建模。样本是通过抽样方法获取的,抽样过程旨在使样本具有代表性,能够反映总体的特征和性质。样本的大小可以根据需求来确定,常用的样本量有几十个到几千个观测值。样本通常用于以下目的:描述总体:样本数据可以用来描述总体的特征和属性。通过对样本的分析,可以推断出总体的统计特征,如均值、方差等。推断总体:样本数据可以用来对总体进行推断。
2025-01-04 10:57:06
1651
原创 使用大语言模型的生物嵌入,后续应该会有很多类似文章出来!
Scouter能够捕捉基因之间的语义关系,从而实现对未见基因扰动的有效外推。此外,其自动聚焦方向感知损失函数能够更关注显著差异表达的基因,并强化预测方向性的准确性。:我们有一个细胞的基因表达数据(绿色部分),它代表在正常情况下每个基因的活跃程度。如果对细胞进行某种基因扰动(红色部分,比如通过实验干预特定基因的活性),会导致一些基因表达水平发生变化(紫色部分),这种变化可能是增强、减弱或保持不变。:预测在某种基因扰动(红色)下,其它基因表达水平的变化(紫色)。:其采用更简单的架构来预测基因扰动的转录反应。
2025-01-04 10:55:01
621
原创 GBCD包:还在用单细胞非负矩阵分解吗?广义二值协方差分解+疾病异质性,又是遥遥领先了!
简单来讲,scITD针对每种细胞类型生成“供体×基因”的伪批量表达矩阵(这里的供体就是个体)。①这些矩阵通过细胞类型维度堆叠,形成一个三维张量(供体×基因×细胞类型)。②该张量在进一步分析之前会经过标准化、归一化和缩放等预处理步骤。③随后,作者使用Tucker张量分解将三维数据分解为几个因子矩阵(样本因子、基因因子、细胞类型因子)和一个核心张量。Tucker张量分解类似于PCA,但它是针对三维数据的。
2025-01-04 10:53:43
957
原创 Nature Genetics | 肿瘤免疫如何做出一些差异化?单细胞空转+三级淋巴样结构+低氧微环境,思路其实还是筛选细胞!
免疫治疗、肿瘤微环境是癌症生信研究的热门。当然,越热门往往就越卷,大家研究思路都是单细胞+bulk+空转,那么怎么样才能做出一些差异化的亮点。今天便给各位老铁们分享一篇于2024年12月10号发表在Nature Genetics[31.7]的单细胞空转多组学文章:"Multi-omic profiling highlights factors associated with resistance to immuno-chemotherapy in non-small-cell lung cancer"
2024-12-24 14:44:55
922
原创 SHAP 可解释性竟然还能做聚类分析?ExplaineR 包带你从机器学习建模到特征重要性一网打尽,兼顾可视化美图!
从二分类建模、评估、SHAP可解释性甚至到。
2024-12-24 14:43:31
1521
原创 Nat. Biomed. Eng | 纯数据库泛癌队列+集成变分自编码器,把你的 PCA 换成这个深度学习架构试试!
最后小结一下,DeepProfile基于无监督深度学习,通过基础的VAE从癌症基因表达数据中提取低维潜在空间,捕捉跨癌症类型的共同生物学特征。该框架通过集成多个VAE模型和聚类方法,能够识别与癌症相关的普遍重要基因和通路,揭示它们与临床特征(如生存期、肿瘤突变负担)的关联。原文代码:泛癌发到这个分数太难了看看其它泛疾病能不能沿用这样的思路学习学习。
2024-12-24 14:41:28
588
原创 scATAC-seq 做转录因子调控网络?这个工具了整合大规模人类/小鼠参考,推荐大家学习收藏(SCRIP)
生信碱移SCRIP近年来,单细胞技术如scATAC-seq使得在单细胞水平上解析全基因组染色质可及性成为可能,这对于研究转录调控因子(TR,包括转录因子TF和染色质调控因子CR)的作用至关重要。目前仍然存在一些不足:①scATAC-seq只能反映总体调控潜力,无法识别特定TR的结合;②基于motifs的方法(如chromVAR、SCENIC等)难以区分相似motifs的同家族TF,且无法评估非直接结合DNA的CR。另一方面,ChIP-seq是一种在群体细胞水平上直接解析TR结合的手段,其结合位点的准确性高于
2024-12-24 14:39:44
759
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人