给细胞“发身份证”,是单细胞分析里最要紧的一步。没有注释,UMAP 上只是漂亮的云朵;有了注释,才是可被解释的生物学。
一、为什么要做细胞注释?
-
连接数据与生物学:将无名聚类对应到“B细胞、内皮、星形胶质”等类型,才能开展差异分析、细胞通讯、轨迹推断。
-
可复用、可比较:统一的类型标签让个人数据与公共图谱对齐,便于复现与跨研究对比。
-
发现新类型/新状态:先把“已知的”稳妥标好,剩下标不上的那一团,往往才是值得深挖的亮点。
二、怎么做细胞注释?四大范式与差异
1) 基于 marker 的人工/半自动注释
思路:找每个簇的特异高表达基因(marker),对照文献/数据库判定类型。
优点:透明、可解释、适合已熟悉的系统;缺点:主观、费时、对新类型不友好。
工具:scCATCH(内置知识库自动打分)、CellAssign/Garnett/SCINA(提供 marker 集,自动分类)。
适用:PBMC、免疫场景、样本量不大或需要强解释性。
2) 基于参考图谱的标签转移(reference‑based)
思路:把查询数据投影到已标注参考(atlas/纯化细胞),迁移标签。
优点:自动化高、速度快;风险:参考不匹配→误标或过度自信。
工具:SingleR(逐细胞相似度)、scmap(投影到参考簇/细胞)、Azimuth(Seurat锚定映射,带不确定度)。
要点:尽量同物种、同组织、同平台;参考要覆盖你的主要细胞谱系。
3) 基于机器学习的自动注释
思路:用已标注数据训练分类器,对新数据预测类型。
优点:标准化、可扩展(大数据友好);风险:训练集偏倚→未知类型被“硬分”。
工具:CellTypist(预训练逻辑回归模型,快且稳)、scAnnotatR(分层SVM,可自训练)、scPred/scClassify、深度模型(scVI/scanVI、ACTINN 等)。
建议:开启“未定/未知”选项;与 marker 表达交叉核对。
4) 多组学助力(RNA+蛋白/ATAC/空间)
思路:用 ADT(CITE‑seq)或 ATAC/空间位置信息辅助区分近似群。
优势:在亚型细分、边界模糊处更稳;注意:各模态质量先过关,再整合。
三、如何按需选型?(给人/鼠/灵长/斑马鱼的实用建议)
-
按物种
-
人:Azimuth(多组织参考)、CellTypist(免疫/多系统模型)、SingleR(HPCA/Blueprint 等参考)。
-
小鼠:SingleR(ImmGen/MCA 等参考)、scmap;必要时自建局部参考。
-
灵长类:首选同物种数据;缺少时做同源基因映射借用人类参考(CellTypist/SingleR),对关键 marker 人工复核。
-
斑马鱼:scCATCH(自定义 zebrafish marker 列表)、参考公开发育图谱/文献 marker;跨物种时用同源基因对照,保守命名。
-
-
按组织与问题
-
免疫/血液:marker 清晰,CellTypist/SingleR 上手快。
-
神经系统:分层注释(先大类再细分),多用局部参考,人工把关命名。
-
发育/胚胎:按阶段与谱系逐步细化,允许“未定/过渡态”。
-
肿瘤微环境:先用 CNV 推断找肿瘤细胞,再对正常免疫/基质做常规注释。
-
-
按数据规模/质量
-
大数据:CellTypist、scAnnotatR 更稳更快;
-
深度浅/掉零多:优先参考映射/模型法,减少对单一 marker 依赖。
-
五、实战技巧与典型场景
-
TME(肿瘤):先 inferCNV 区分肿瘤 vs 非肿瘤;对非肿瘤用 CellTypist/SingleR;警惕肿瘤细胞因炎症基因被误标为巨噬/成纤维。
-
斑马鱼发育:按时间点分步注释,优先大谱系(外/中/内胚层)→再细分;跨物种对齐时用同源基因+文献 marker。
-
PBMC(人):最好练手机场:手动 marker(CD3、CD4/CD8、MS4A1、NKG7…)与 Azimuth/CellTypist 互证,关注易混淆亚群(CD14 vs FCGR3A)。
-
小鼠脑:先分神经元/胶质/血管(Snap25/Plp1/Pecam1…),再在特定脑区用局部参考细分;分层命名保持一致。
-
灵长类未注释组织:人类参考+同源映射先给“粗标签”,关键群人工核对;逐步累积自有参考库。
通用避坑:聚类分辨率与注释要协同迭代;开启“未知/未定”以免误标;多方法交叉验证;命名遵循层级体系(大类‑亚类‑状态)。
常用工具与资源
-
人:Azimuth、CellTypist、SingleR;
-
小鼠:SingleR(ImmGen/MCA 参考)、scmap;
-
灵长类:同源映射 + CellTypist/SingleR,自建参考;
-
斑马鱼:scCATCH(自定义 marker)、文献/图谱 marker;
-
评估与可视化:Seurat/Scanpy 的 DotPlot/FeaturePlot/heatmap;CNV 推断(如 inferCNV)。
结语
细胞注释没有一招鲜。最稳的路线往往是:参考/模型快速定大类 → marker 复核 → 针对关键群分层细化 → 指标与生物学双重评估 → 迭代修正。当你能自如给每个簇“发证”,下游的一切(差异、通讯、轨迹)都会顺畅许多。
2717

被折叠的 条评论
为什么被折叠?



