之前在平台发布了几个问题,接下来我会依次给出我的想法,仅供参考。本文有些观点读者朋友可能是第一次看到,有不同意见的话,欢迎给我发邮件讨论:huangsiyuan1001@163.com
问题
- 一、有的文章只提供TPM的单细胞表达矩阵,可以用seurat分析吗?
- 二、分析流程和用count矩阵有什么不同?
- 三、10X的单细胞转录组数据的标准化需要考虑基因长度吗?
先来看看第3个小问题
10X的单细胞转录组数据的标准化需要考虑基因长度吗?
答案是不需要。
我们看一下seurat里面NormalizeData()函数是如何做标准化,然后求Log。
test.seu <- NormalizeData(test.seu, normalization.method = "LogNormalize", scale.factor = 10000)
LogNormalize: Feature counts for each cell are divided by the total counts for that cell and multiplied by the scale.factor(默认是10000). This is then natural-log transformed using log1p.(每一列都是先除以一个细胞UMI的总和,再乘以10000,再加1,再求对数)
的确没有考虑基因长度。