单细胞数据类型和数据对象格式

单细胞数据中的数据类型

Count Data(计数数据)

  • 原始的测序读数计数,表示每个细胞中每个基因检测到的RNA分子数量
  • 通常是整数值,受测序深度和细胞大小等技术因素影响
  • 存在较大的细胞间差异,需要标准化处理

Normalized Data(标准化数据)

  • 对原始计数数据进行标准化处理后得到的数据
  • 常见标准化方法包括:
    • Library size normalization(文库大小标准化):根据每个细胞的总测序深度进行调整
    • Log-transformation(对数转换):通常会加上一个伪计数(pseudocount),如log(counts+1)
    • 其他方法如SCTransform、TPM、FPKM等
  • 标准化后的数据可以更好地用于下游分析,如聚类和差异表达分析

单细胞数据对象格式

Seurat对象

  • R语言中最流行的单细胞分析工具包
  • 包含多个数据矩阵层,如"RNA"层存储基因表达数据
  • 主要组成部分:
    • raw counts(原始计数)
    • normalized data(标准化数据)
    • scaled data(缩放数据)
    • metadata(元数据):包含细胞类型、实验条件等信息
    • dimensionality reduction(降维结果):如PCA、UMAP、t-SNE等

SingleCellExperiment对象

  • Bioconductor生态系统中的一个标准单细胞数据对象
  • 基于SummarizedExperiment开发
  • 主要组成:
    • assays:存储多种表达数据类型(counts、normalized、logcounts等)
    • colData:细胞的元数据
    • rowData:基因的元数据
    • reducedDims:降维结果
  • 与许多Bioconductor工具兼容

AnnData对象

  • Python生态系统中的标准单细胞数据格式,由Scanpy开发
  • 数据存储在.h5ad文件中
  • 主要组成:
    • X:主要表达矩阵
    • obs:细胞注释(相当于元数据)
    • var:基因注释
    • obsm:降维结果
    • layers:可以存储多种数据类型(如原始计数和标准化数据)
  • 支持稀疏矩阵存储,对大数据集有优势

这些数据对象提供了标准化的数据结构,便于各种单细胞分析工具的开发和使用。不同平台之间也有转换方法,例如可以将Seurat对象转换为SingleCellExperiment对象或AnnData对象,反之亦然。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值