RNA-seq【分析记录】

原创

已于 2022-02-22 10:10:28 修改 · 2.4k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#RNA-seq

于 2021-08-27 20:13:42 首次发布

本文详细介绍了RNA-seq数据分析的完整流程，包括原始数据质量控制、转录本比对、表达定量以及差异表达分析。重点讨论了Trimmomatic的过滤策略、STAR和HiSAT2的比对工具、RSEM和HTSeq的表达量计算，以及DESeq2的差异基因分析。此外，还提到了链特异性文库的构建和无参转录本组装工具Trinity的应用。

视频学习笔记

在这里插入图片描述

Isoforms at the RNA level are readily characterized by cDNA transcript studies.(secondary structures in cellular RNAs)

Alternative RNA splicing
In different human tissues, there are four distinctive isoforms of TH for both TH mRNA and protein. TH mRNA isoforms are produced by differential splicing of a single-copy gene using two splicing donor sites in the first exon and inclusion/exclusion of the second exon. The alternative RNA splicing produces mRNA variants from which proteins are produced that differ in amino acid length, potential phosphorylation, and subtle kinetic properties.

链特异性文库

由于转录组文库构建过程中要将mRNA反转录为双链的cDNA，因此，在测序时，即会同时得到cDNA双链的序列信息，这就消除了mRNA单链的特性，无法区分cDNA中的正义链和反义链。

因此提出了另一种文库构建方式，链特异性文库，其在文库制备和测序中保留mRNA 的方向信息，使得有效数据增多，基因表达定量更准确；基因注释更准确，新基因识别等分析更可靠；同该方法能够鉴定与开放阅读框反义的ncRNA、发现反义转录本。

其建库原理与普通转录组类似，不同之处在于合成第二链cDNA时，用dUTP代替dTTP，此时第二链cDNA上布满了含dUTP的位点。

在接头连接后用一种特定的酶，其可在尿嘧啶位置产生一个单核苷酸缺口，从而消化掉第二链cDNA，只保留第一链cDNA，随后进行PCR扩增纯化，得到只含第一链cDNA信息的文库。

概述

预处理
- FASTQC数据质控
- 数据过滤Trimmomatic
有参转录组序列比对
- 不同比对软件的比较
- 常用序列比对算法
- 基因组比对
  - STAR
  - hisat2
- 转录本比对 RSEM
无参转录组
- 转录本从头拼接原理
- 拼接方法 Trinity
表达定量
- RNA-seq常用统计定量单位
- 基因组比对
  - Htseq-Count
  - FeatureCount
- 转录本比对 RSEM
数据分析
- 思路？
- 差异表达
  + Deseq标准化原理
- 富集分析
  + GO
  + 通路富集分析
- 数据可视化展示
  - IGV，基因浏览器

前期准备

	mkdir 00ref 参考序列fasta，注释文件gtf/gff
	mkdir 01raw_data 
	mkdir 02clean_data
	mkdir 03align_out
	mkdir 04quantification
	mkdir 05Deqseq ...

参考序列/注释信息下载
- Ensembl数据库，JGI数据库，模式植物拟南芥(tair，ARAPORT)
原始数据上传，检查完整性md5值
- 给自己的文件生成md5值：md5sum *gz > md5.txt
- 比对已有的md5值(check)：md5sum -c md5.txt

数据预处理

最低0.47元/天解锁文章