- 优化内容
- 解决每次转换需要设置样本数和基因数目
- 实现基因count值与length精准匹配
- 摘要
- 大概半年前,我写过一篇将HTseq生成的基因COUNT值转换为FPKM值文章,用于对count的入门级均一化处理。随着项目越做越多,逐渐发现了之前写的脚本的局限性。比如,每次换算都需要设置包括样品数,基因数目等参数。另外,以前的转换脚本哪怕使用同一个gff文件,定量得到的基因数目和makeTxDbFromGFF中exonsby、transcriptsby定义的基因数目可能是不一样的,这就导致count列和length列不能一一对应进行计算,而产生差错。count如何精准换算成FPKM就成了非常重要的一个问题。因此,我用了2天时间(R确实不太熟悉)研究了多个解决方法, 最后通过匹配方式将gene_count与gene_length通过gene名称匹配起来,完成转换。
- 环境配置
- R version 3.6.1
- 依赖包GenomicFeatures
- 研究思路
- 最开始的方向是尝试统一基因数目,比如将htseq和makeTxDbFromGFF读取相同的gtf或者gff文件。在发现有不少其他类型的注释后&#x
2021.04.22【RNA-seq流程】丨count值转换为FPKM值优化2.0
最新推荐文章于 2025-01-14 13:23:13 发布