单细胞中的细胞判定法

细胞判定目前要解决两大问题,其一是如何过滤掉背景数据,其二是如何避免基因表达量(UMI)低的细胞类型被遗漏。

单细胞技术均采用Cell Barcode标记细胞,理论上,一条Cell Barcode对应一个细胞,但在细胞捕获与标记过程中,单细胞悬液中游离的“ambient RNA”(主要为细胞裂解后释放的RNA),也会被捕获和标记,这部分数据即被称之为背景数据,由于其表达模式相对平均,UMI数值比较低,很容易通过UMI数值将其过滤掉。

最初的细胞判定方法,主要根据UMI数值高低来判断,后续由于某些细胞的特殊性,增加了低UMI细胞的判定方法。目前细胞判定的方法主要有如下三种[1]:
  • ① 高UMI阈值法[2]:这种方法即是通过UMI数值高低进行判断的方法。如果预期捕获N个细胞,则按照每个Barcode对应的UMI数进行排序,在UMI数最高的N个Barcode中,取第99分位Barcode对应的UMI数目除以10,作为cut-off。所有Barcode中对应的UMI数目高于该cut-off即为细胞,否则为背景。Cell Ranger2.2及以前的版本即采用这种方法。
  • ② Knee Point方法[3]:这种方法使用UMI数值变化的“拐点”作为细胞判断cut-off的方法。将Barcode按照UMI数目从高到低排列,并拟合曲线,曲线斜率变化大的点对应的UMI数目为拐点,即cut-off。所有Barcode对应的UMI数目高于该cut-off为细胞,否则为背景。目前该方法应用较少。
  • ③ EmptyDrop方法:这种方法解决了低UMI细胞与背景数据的区分,首先,对ambient RNA的集合进行估计,然后使用Dirichlet-multinomia模型,将其与每个Barcode对应的UMI count进行差异显著性检验,差异显著即为细胞,否则为背景。

对于高UMI的细胞,使用高UMI阈值方法和EmptyDrops方法可以判定出超过90%的细胞(图2红色方框内),Knee Point 方法仅能检出70%左右。对于低UMI的细胞,EmpotyDrops方法可以判断出约60%的细胞(图2蓝色方框内),其他两种方法几乎检测不到。

高UMI阈值方法能够确保高UMI细胞和背景数据的有效区分,EmptyDrops方法则确保低UMI细胞与背景数据的有效区分。因此,将EmptyDrops和高UMI阈值相结合,则可以兼顾细胞判定中背景数据和低UMI细胞漏检的问题。

参考文献:1. Lun, A.T.L., et al., EmptyDrops: distinguishing cells from empty droplets in droplet-based single-cell RNA sequencing data. Genome Biology, 2019. 20(1): p. 63.
### 单细胞数据中的细胞周期预测方法与工具 #### 细胞周期预测的重要性 单细胞RNA测序(scRNA-seq)技术使得对数千个单个细胞进行全面分子分析成为可能,这为生物医学研究带来了巨大机遇。scRNA-seq产生的大量数据集通常被称为转录景观(landscape),其中包含了丰富的细胞异质性和模式信息[^2]。 #### 聚类与伪时序分析的区别 对于细胞细胞的变化(cell-to-cell variation),当前的计算方法主要采用两种策略:聚类(clustering)和伪时序(infer pseudotime or trajectory)。聚类假设数据由不同类型的细胞或状态构成,并通过离散标签进行分类;而伪时序则认为数据位于连续流形上,利用距离作为连续变量标记细胞位置。后者尤其适用于描述连续变化的过程,如发育、剂量响应以及疾病进展等现象。 #### 常见的细胞周期预测工具和技术 为了实现更精确地识别处于特定阶段的细胞,在生信学中有多种专门针对细胞周期预测的方法和软件: - **CellCycleScoring**: 这是个基于基因表达特征来进行细胞周期评分的功能模块,能够有效区分G1/S/G2M三个时期内的活跃程度。该功能集成于Seurat包中,可通过简单命令调用来完成操作。 ```r library(Seurat) cc.genes <- GetCCGenes() pbmc.data <- AddModuleScore(object = pbmc, features = cc.genes$all.genes, name = 'cc') ``` - **Cyclone**: Cyclone是款专注于构建细胞周期轨迹模型的应用程序,它不仅支持标准的S期/M期划分,还允许用户自定义更多细分区间。其核心优势在于结合了时间序列数据处理能力,从而提高了动态过程中各节点归属断准确性。 ```bash cyclone --input_matrix input.txt \ --output_prefix output \ --method scikit_learn_knn \ --n_neighbors 30 ``` - **scPhaser**: 此外还有像scPhaser这样的新型算法框架,旨在克服传统手段难以应对的高度复杂样本情况下的局限性。通过对已知调控因子网络结构的学习优化参数估计流程,进而达到更高分辨率下稳定可靠的分期效果。 综上所述,选择合适的工具取决于具体应用场景的需求,无论是静态还是动态视角都各有侧重。值得注意的是,随着领域内新技术不断涌现,未来可能会有更加先进高效的解决方案问世。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值