单细胞数据中的数据类型
Count Data(计数数据)
- 原始的测序读数计数,表示每个细胞中每个基因检测到的RNA分子数量
- 通常是整数值,受测序深度和细胞大小等技术因素影响
- 存在较大的细胞间差异,需要标准化处理
Normalized Data(标准化数据)
- 对原始计数数据进行标准化处理后得到的数据
- 常见标准化方法包括:
- Library size normalization(文库大小标准化):根据每个细胞的总测序深度进行调整
- Log-transformation(对数转换):通常会加上一个伪计数(pseudocount),如log(counts+1)
- 其他方法如SCTransform、TPM、FPKM等
- 标准化后的数据可以更好地用于下游分析,如聚类和差异表达分析
单细胞数据对象格式
Seurat对象
- R语言中最流行的单细胞分析工具包
- 包含多个数据矩阵层,如"RNA"层存储基因表达数据
- 主要组成部分:
- raw counts(原始计数)
- normalized data(标准化数据)
- scaled data(缩放数据)
- metadata(元数据):包含细胞类型、实验条件等信息
- dimensionality reduction(降维结果):如PCA、UMAP、t-SNE等
SingleCellExperiment对象
- Bioconductor生态系统中的一个标准单细胞数据对象
- 基于SummarizedExperiment开发
- 主要组成:
- assays:存储多种表达数据类型(counts、normalized、logcounts等)
- colData:细胞的元数据
- rowData:基因的元数据
- reducedDims:降维结果
- 与许多Bioconductor工具兼容
AnnData对象
- Python生态系统中的标准单细胞数据格式,由Scanpy开发
- 数据存储在.h5ad文件中
- 主要组成:
- X:主要表达矩阵
- obs:细胞注释(相当于元数据)
- var:基因注释
- obsm:降维结果
- layers:可以存储多种数据类型(如原始计数和标准化数据)
- 支持稀疏矩阵存储,对大数据集有优势
这些数据对象提供了标准化的数据结构,便于各种单细胞分析工具的开发和使用。不同平台之间也有转换方法,例如可以将Seurat对象转换为SingleCellExperiment对象或AnnData对象,反之亦然。