细胞判定目前要解决两大问题,其一是如何过滤掉背景数据,其二是如何避免基因表达量(UMI)低的细胞类型被遗漏。
单细胞技术均采用Cell Barcode标记细胞,理论上,一条Cell Barcode对应一个细胞,但在细胞捕获与标记过程中,单细胞悬液中游离的“ambient RNA”(主要为细胞裂解后释放的RNA),也会被捕获和标记,这部分数据即被称之为背景数据,由于其表达模式相对平均,UMI数值比较低,很容易通过UMI数值将其过滤掉。
最初的细胞判定方法,主要根据UMI数值高低来判断,后续由于某些细胞的特殊性,增加了低UMI细胞的判定方法。目前细胞判定的方法主要有如下三种[1]:
- ① 高UMI阈值法[2]:这种方法即是通过UMI数值高低进行判断的方法。如果预期捕获N个细胞,则按照每个Barcode对应的UMI数进行排序,在UMI数最高的N个Barcode中,取第99分位Barcode对应的UMI数目除以10,作为cut-off。所有Barcode中对应的UMI数目高于该cut-off即为细胞,否则为背景。Cell Ranger2.2及以前的版本即采用这种方法。
- ② Knee Point方法[3]:这种方法使用UMI数值变化的“拐点”作为细胞判断cut-off的方法。将Barcode按照UMI数目从高到低排列,并拟合曲线,曲线斜率变化大的点对应的UMI数目为拐点,即cut-off。所有Barcode对应的UMI数目高于该cut-off为细胞,否则为背景。目前该方法应用较少。
- ③ EmptyDrop方法:这种方法解决了低UMI细胞与背景数据的区分,首先,对ambient RNA的集合进行估计,然后使用Dirichlet-multinomia模型,将其与每个Barcode对应的UMI count进行差异显著性检验,差异显著即为细胞,否则为背景。
对于高UMI的细胞,使用高UMI阈值方法和EmptyDrops方法可以判定出超过90%的细胞(图2红色方框内),Knee Point 方法仅能检出70%左右。对于低UMI的细胞,EmpotyDrops方法可以判断出约60%的细胞(图2蓝色方框内),其他两种方法几乎检测不到。
高UMI阈值方法能够确保高UMI细胞和背景数据的有效区分,EmptyDrops方法则确保低UMI细胞与背景数据的有效区分。因此,将EmptyDrops和高UMI阈值相结合,则可以兼顾细胞判定中背景数据和低UMI细胞漏检的问题。