一、聚类分析
scRNA-seq分析的最经常应用之一是基于转录谱的细胞类型(cell-type)的新发现和注释。从计算角度来看,这就是一个困难的无监督聚类问题。也就是说,我们需要在没有先验知识标签的情况下,根据转录组的相似性来识别细胞群。此外在大多数情况下,我们无法预先知道cluster的数量。而且由于高水平的技术噪声(技术和生物上)和大量的维度(eg基因数),这个问题变得更具有挑战性。
1、降维
在处理大型数据集的时候,通常需要使用某种维数降低的方法。通过将数据投影到低维子空间,第一可以显著减少噪声,第二在2维或者3维子空间,可视化数据更容易。
方法:PCA,tSNE(tSNE更经常用于可视化,主要目的不是降维)
2、聚类方法
2.1 分层聚类 hierarchical clustering
分层聚类一般分为两类:
agglomerative(凝聚):bottom-up,每个单元最初被分配到它自己的cluster,随着层次的上升,cluster被合并,以创建一个层次结构。
divisive(分裂):top-dowm,首先所有的单元都从一个cluster开始,然后递归地拆分每个cluster以形成层次结构。
2.2 K-means
在kmeans中,目标是将N个单元划分为k个不同的聚类。以迭代的方式,分配集群中心,并将每个单元分配给其最近的集群。
用于scRNAseq分析的大多数方法在某些时候都包括kmeans步骤。
2.3 基于图的方法
构建图网络,其中每个节点表示一个cell,并为边赋权重。
2.4 聚类分析中的挑战
聚类的数量k是什么?
什么是cell type?
可扩展性:scRNAseq的细胞数量增长了几个数量级(从10^2 到10^6)。
二 scRNAseq数据的工具
1、SINCERA
基于层次聚类
在聚类之前数据被转换为z-score
通过在层次结构中找到第一个singleton来确定k
https://research.cchmc.org/pbge/sincera.html
参考论文:
Guo, Minzhe, Hui Wang, S. Steven Potter, Jeffrey A. Whitsett, and Yan Xu. 2015. “SINCERA: A Pipeline for Single-Cell RNA-Seq Pr