EVBioX 第八期 | 细胞注释全攻略(scRNA‑seq):从方法到实战

给细胞“发身份证”,是单细胞分析里最要紧的一步。没有注释,UMAP 上只是漂亮的云朵;有了注释,才是可被解释的生物学。


一、为什么要做细胞注释?

  • 连接数据与生物学:将无名聚类对应到“B细胞、内皮、星形胶质”等类型,才能开展差异分析、细胞通讯、轨迹推断。

  • 可复用、可比较:统一的类型标签让个人数据与公共图谱对齐,便于复现与跨研究对比。

  • 发现新类型/新状态:先把“已知的”稳妥标好,剩下标不上的那一团,往往才是值得深挖的亮点。


二、怎么做细胞注释?四大范式与差异

1) 基于 marker 的人工/半自动注释

思路:找每个簇的特异高表达基因(marker),对照文献/数据库判定类型。
优点:透明、可解释、适合已熟悉的系统;缺点:主观、费时、对新类型不友好。
工具:scCATCH(内置知识库自动打分)、CellAssign/Garnett/SCINA(提供 marker 集,自动分类)。
适用:PBMC、免疫场景、样本量不大或需要强解释性。

2) 基于参考图谱的标签转移(reference‑based)

思路:把查询数据投影到已标注参考(atlas/纯化细胞),迁移标签。
优点:自动化高、速度快;风险:参考不匹配→误标或过度自信。
工具:SingleR(逐细胞相似度)、scmap(投影到参考簇/细胞)、Azimuth(Seurat锚定映射,带不确定度)。
要点:尽量同物种、同组织、同平台;参考要覆盖你的主要细胞谱系。

3) 基于机器学习的自动注释

思路:用已标注数据训练分类器,对新数据预测类型。
优点:标准化、可扩展(大数据友好);风险:训练集偏倚→未知类型被“硬分”。
工具:CellTypist(预训练逻辑回归模型,快且稳)、scAnnotatR(分层SVM,可自训练)、scPred/scClassify、深度模型(scVI/scanVI、ACTINN 等)。
建议:开启“未定/未知”选项;与 marker 表达交叉核对。

4) 多组学助力(RNA+蛋白/ATAC/空间)

思路:用 ADT(CITE‑seq)或 ATAC/空间位置信息辅助区分近似群。
优势:在亚型细分、边界模糊处更稳;注意:各模态质量先过关,再整合。


三、如何按需选型?(给人/鼠/灵长/斑马鱼的实用建议)

  • 按物种

    • :Azimuth(多组织参考)、CellTypist(免疫/多系统模型)、SingleR(HPCA/Blueprint 等参考)。

    • 小鼠:SingleR(ImmGen/MCA 等参考)、scmap;必要时自建局部参考。

    • 灵长类:首选同物种数据;缺少时做同源基因映射借用人类参考(CellTypist/SingleR),对关键 marker 人工复核。

    • 斑马鱼:scCATCH(自定义 zebrafish marker 列表)、参考公开发育图谱/文献 marker;跨物种时用同源基因对照,保守命名。

  • 按组织与问题

    • 免疫/血液:marker 清晰,CellTypist/SingleR 上手快。

    • 神经系统:分层注释(先大类再细分),多用局部参考,人工把关命名。

    • 发育/胚胎:按阶段与谱系逐步细化,允许“未定/过渡态”。

    • 肿瘤微环境:先用 CNV 推断找肿瘤细胞,再对正常免疫/基质做常规注释。

  • 按数据规模/质量

    • 大数据:CellTypist、scAnnotatR 更稳更快;

    • 深度浅/掉零多:优先参考映射/模型法,减少对单一 marker 依赖。


五、实战技巧与典型场景

  • TME(肿瘤):先 inferCNV 区分肿瘤 vs 非肿瘤;对非肿瘤用 CellTypist/SingleR;警惕肿瘤细胞因炎症基因被误标为巨噬/成纤维。

  • 斑马鱼发育:按时间点分步注释,优先大谱系(外/中/内胚层)→再细分;跨物种对齐时用同源基因+文献 marker。

  • PBMC(人):最好练手机场:手动 marker(CD3、CD4/CD8、MS4A1、NKG7…)与 Azimuth/CellTypist 互证,关注易混淆亚群(CD14 vs FCGR3A)。

  • 小鼠脑:先分神经元/胶质/血管(Snap25/Plp1/Pecam1…),再在特定脑区用局部参考细分;分层命名保持一致。

  • 灵长类未注释组织:人类参考+同源映射先给“粗标签”,关键群人工核对;逐步累积自有参考库。

通用避坑:聚类分辨率与注释要协同迭代;开启“未知/未定”以免误标;多方法交叉验证;命名遵循层级体系(大类‑亚类‑状态)。


常用工具与资源

  • :Azimuth、CellTypist、SingleR;

  • 小鼠:SingleR(ImmGen/MCA 参考)、scmap;

  • 灵长类:同源映射 + CellTypist/SingleR,自建参考;

  • 斑马鱼:scCATCH(自定义 marker)、文献/图谱 marker;

  • 评估与可视化:Seurat/Scanpy 的 DotPlot/FeaturePlot/heatmap;CNV 推断(如 inferCNV)。


结语

细胞注释没有一招鲜。最稳的路线往往是:参考/模型快速定大类 → marker 复核 → 针对关键群分层细化 → 指标与生物学双重评估 → 迭代修正。当你能自如给每个簇“发证”,下游的一切(差异、通讯、轨迹)都会顺畅许多。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

EVBioX

如果有收获,欢迎打赏支持创作!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值