EVBioX 第八期 | 细胞注释全攻略（scRNA‑seq）：从方法到实战

最新推荐文章于 2026-01-05 22:36:07 发布

原创最新推荐文章于 2026-01-05 22:36:07 发布 · 857 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #学习 #python #单细胞 #r语言

给细胞“发身份证”，是单细胞分析里最要紧的一步。没有注释，UMAP 上只是漂亮的云朵；有了注释，才是可被解释的生物学。

一、为什么要做细胞注释？

连接数据与生物学：将无名聚类对应到“B细胞、内皮、星形胶质”等类型，才能开展差异分析、细胞通讯、轨迹推断。
可复用、可比较：统一的类型标签让个人数据与公共图谱对齐，便于复现与跨研究对比。
发现新类型/新状态：先把“已知的”稳妥标好，剩下标不上的那一团，往往才是值得深挖的亮点。

二、怎么做细胞注释？四大范式与差异

1) 基于 marker 的人工/半自动注释

思路：找每个簇的特异高表达基因（marker），对照文献/数据库判定类型。
优点：透明、可解释、适合已熟悉的系统；缺点：主观、费时、对新类型不友好。
工具：scCATCH（内置知识库自动打分）、CellAssign/Garnett/SCINA（提供 marker 集，自动分类）。
适用：PBMC、免疫场景、样本量不大或需要强解释性。

2) 基于参考图谱的标签转移（reference‑based）

思路：把查询数据投影到已标注参考（atlas/纯化细胞），迁移标签。
优点：自动化高、速度快；风险：参考不匹配→误标或过度自信。
工具：SingleR（逐细胞相似度）、scmap（投影到参考簇/细胞）、Azimuth（Seurat锚定映射，带不确定度）。
要点：尽量同物种、同组织、同平台；参考要覆盖你的主要细胞谱系。

3) 基于机器学习的自动注释

思路：用已标注数据训练分类器，对新数据预测类型。
优点：标准化、可扩展（大数据友好）；风险：训练集偏倚→未知类型被“硬分”。
工具：CellTypist（预训练逻辑回归模型，快且稳）、scAnnotatR（分层SVM，可自训练）、scPred/scClassify、深度模型（scVI/scanVI、ACTINN 等）。
建议：开启“未定/未知”选项；与 marker 表达交叉核对。

4) 多组学助力（RNA+蛋白/ATAC/空间）

思路：用 ADT（CITE‑seq）或 ATAC/空间位置信息辅助区分近似群。
优势：在亚型细分、边界模糊处更稳；注意：各模态质量先过关，再整合。

三、如何按需选型？（给人/鼠/灵长/斑马鱼的实用建议）

按物种
- 人：Azimuth（多组织参考）、CellTypist（免疫/多系统模型）、SingleR（HPCA/Blueprint 等参考）。
- 小鼠：SingleR（ImmGen/MCA 等参考）、scmap；必要时自建局部参考。
- 灵长类：首选同物种数据；缺少时做同源基因映射借用人类参考（CellTypist/SingleR），对关键 marker 人工复核。
- 斑马鱼：scCATCH（自定义 zebrafish marker 列表）、参考公开发育图谱/文献 marker；跨物种时用同源基因对照，保守命名。
按组织与问题
- 免疫/血液：marker 清晰，CellTypist/SingleR 上手快。
- 神经系统：分层注释（先大类再细分），多用局部参考，人工把关命名。
- 发育/胚胎：按阶段与谱系逐步细化，允许“未定/过渡态”。
- 肿瘤微环境：先用 CNV 推断找肿瘤细胞，再对正常免疫/基质做常规注释。
按数据规模/质量
- 大数据：CellTypist、scAnnotatR 更稳更快；
- 深度浅/掉零多：优先参考映射/模型法，减少对单一 marker 依赖。

五、实战技巧与典型场景

TME（肿瘤）：先 inferCNV 区分肿瘤 vs 非肿瘤；对非肿瘤用 CellTypist/SingleR；警惕肿瘤细胞因炎症基因被误标为巨噬/成纤维。
斑马鱼发育：按时间点分步注释，优先大谱系（外/中/内胚层）→再细分；跨物种对齐时用同源基因+文献 marker。
PBMC（人）：最好练手机场：手动 marker（CD3、CD4/CD8、MS4A1、NKG7…）与 Azimuth/CellTypist 互证，关注易混淆亚群（CD14 vs FCGR3A）。
小鼠脑：先分神经元/胶质/血管（Snap25/Plp1/Pecam1…），再在特定脑区用局部参考细分；分层命名保持一致。
灵长类未注释组织：人类参考+同源映射先给“粗标签”，关键群人工核对；逐步累积自有参考库。