生信分析1:转录组测序数据分析概述

概述:转录组测序数据分析

  • 目录
  1. 转录组学研究技术的发展
  2. 普通转录组测序(RNA-seq platforms and experiments)
  3. 普通转录组测序数据处理流程 (data-processing)
  4. 单细胞转录组与普通转录组对比(Single-cell vs bulk sequencing)
  5. 单细胞测序(scRNA-seq platforms and experiments)
  6. 空间转录组测序(Spatial Transcriptomics)
  7. 参考文献:

1.转录组学研究技术的发展

转录组是特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的集合。转录组研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理。

**转录组测序(RNA-Seq)**是指利用第二代高通量测序技术进行cDNA测序,全面快速地获取某一物种特定器官或组织在某一状态下的几乎所有转录本。转录组研究是基因功能及结构研究的基础和出发点, 了解转录组是解读基因组功能元件和揭示细胞及组织中分子组成所必需的,并且对理解机体发育和疾病具有重要作用。整个转录组分析的主要目标是:对所有的转录产物进行分类;确定基因的转录结构,如其起始位点,5′和3′末端,剪接模式和其他转录后修饰;并量化各转录本在发育过程中和不同条件下(如生理/病理)表达水平的变化。

转录组学研究时间线如下:1970年代:第一代转录组学技术出现,通过RNA-DNA杂交技术分析基因表达。1990年代:第二代转录组学技术出现,包括序列标签(Serial Analysis of Gene Expression,SAGE)[1]和微阵列(Microarray)技术[2]。2000年代:第三代转录组学技术出现,包括直接测序技术(如RNA-Seq)[3]和基于纳米孔的测序技术(如Oxford Nanopore Technologies和Pacific Biosciences)[4]。2010年代:单细胞转录组学技术发展迅速,包括单细胞RNA-Seq[5]和单细胞ATAC-Seq[6]等。同时,单细胞空间转录组学技术也开始出现,如空间转录组测序(Spatial Transcriptomics)和空间原位转录组测序(in situ transcriptomics)。2010年代:代谢组学技术出现,可以定量分析生物体内代谢物的种类和含量。2010年代:蛋白质组学技术发展迅速,包括质谱法(Mass Spectrometry)和蛋白质芯片技术等。2010年代:翻译组学技术发展迅速,可以定量分析生物体内翻译的转录本和蛋白质的表达水平。

2.普通转录组测序(RNA-seq platforms and experiments)

传统的转录组测序技术,也被称为普通转录组测序(Bulk RNA-seq),它的核心是基因表达差异的显著性分析,使用统计学方法,比较两个条件或多个条件下的基因表达差异,从中找出与条件相关的特异性基因,然后进一步分析这些特异性基因的生物学意义,分析过程包括质控、比对、定量、差异显著性分析和下游分析与可视化六个环节[7]。另外可变剪接和变异位点也是RNA-seq的重要分析内容。

3.普通转录组测序数据处理流程 (data-processing)

illumina公司测序原理与质量控制Quality control

在illumina的测序文件中,采用双端测序(paired-end),一个样本得到的是seq_1.fastq.gz和seq_2.fastq.gz两个文件,每个文件存放一段测序文件。在illumina的测序的cDNA短链被修饰为以下形式:两端的序列是保护碱基(terminal sequence)、接头序列(adapter)、索引序列(index)、引物结合位点(Primer Binding Site):其中 adapter是和flowcell上的接头互补配对结合的;index是一段特异序列,加入index是为了提高illumina测序仪的使用率,因为同一个泳道可能会测序多个样品,样品间的区分就是通过index区分。在illumina公司测得的序列文件经过处理以fastq文件协议存储为*.fastq格式文件。在fastq文件中每4行存储一个read。FastQC是常用于生成FASTQ文件的质量报告的工具,包括序列质量分布、GC含量分布、序列重复性等。

对比到基因组和转录组Reads alignment

这一步是将修剪后的读段比对到参考基因组或参考序列,确定在转录组或者基因组中的关系。RNA-seq产生的原始数据是数十亿条短序列(如150 bp的 reads),它们本身只是​​随机的碱基字符串​​,无任何生物学意义。比对的作用​​就是解析这些字符串,确定每条 read 在基因组中的来源位置,从而为后续分析提供基础。

定量Qualification

由于测序深度不同以及基因长度不同,为了能够比较不同的样本,比较不同的基因的表达量,以及使表达水品分布符合统计方法的基本假设,需要对RNA-seq原始数据进行标准化。目前用的最多就是RPKM/FPKM、TPM(Transcripts per Million)。RSEM (RNA-Seq by Expectation-Maximization)​​ 是一个广泛应用于转录组测序 (RNA-Seq) 数据分析的软件工具,它的核​心功能就是进行基因和转录本的定量​​。

差异表达分析RNA-seq differential expression gene

对于差异表达基因分析,目的是找出上面的矩阵里可能实验组跟对照组有差别的基因,有的基因在实验组中表达上调,也有可能下调,这部分基因就被我们称为差异表达基因(differential expression gene),而对于差异表达基因的计算,并不是简单的求平均值,然后比较实验组跟对照组平均值的大小,而是有一系列复杂的统计学计算。在转录组的基因差异表达分析中,一般的筛选标准是基因表达差异倍数大于2、并且FDR≤0.05为显著差异的基因。常用的R包有

下游分析与可视化 (Downstream Analysis & Visualization)​

​​下游分析与可视化(Downstream Analysis & Visualization)​​ 是 RNA-seq 差异表达分析后的核心环节,其目标是将统计学筛选出的差异基因(DEGs)转化为可解释的生物学洞见,揭示其功能意义、调控网络和与表型的关联。

4.单细胞转录组与普通转录组对比(Single-cell vs bulk sequencing)

在数据分析方法方面,单细胞转录组和普通转录组在数据预处理、基因表达定量、差异分析等关键步骤都存在差异。单细胞转录组数据处理更为复杂而普通转录组数据处理相对简单,有成熟的方法和工具。​
普通转录组测序存在一定的局限性。由于它是对大量细胞进行测序,所得到的结果是细胞群体的平均表达水平,这就导致它无法区分细胞亚群或稀有细胞类型,也难以揭示细胞之间的异质性。在一个复杂的组织样本中,可能存在多种不同类型的细胞,它们各自具有独特的基因表达谱和功能。但普通转录组测序只能给出这些细胞基因表达的平均值,无法准确反映每个细胞的真实情况。为了克服普通转录组测序的这些局限性,2009年,汤富酬老师团队首先开发出单细胞转录组技术。单细胞转录组测序能够在单个细胞的尺度上,对细胞内的所有基因表达情况进行检测,从而揭示细胞之间的异质性和细胞亚群的特征。此后,陆续出现了多种单细胞转录组测序技术,一系列新技术如 Smart-seq、Drop-seq、InDrop-seq、Smart-seq2等。
在应用场景方面,单细胞转录组在揭示细胞异质性、解析发育轨迹、研究细胞间相互作用、识别疾病相关细胞亚群等方面具有明显优势。而普通转录组则在大规模样本分析、整体基因表达模式研究、建立预测模型等方面更具优势。​
随着技术的不断发展,单细胞转录组和普通转录组的整合分析将成为未来研究的重要方向。通过整合单细胞转录组和普通转录组的数据,可以充分发挥两者的优势,提供更全面、更深入的生物学见解。​
总之,单细胞转录组和普通转录组不是相互替代的关系,而是互补的关系。在实际研究中,应根据研究问题和资源情况,选择合适的技术和方法,或者结合两者的优势,以获得最佳的研究结果。

5.单细胞测序(scRNA-seq platforms and experiments)

单细胞测序(Single Cell Sequencing)是一种在单细胞水平上对全基因组或转录组进行扩增与测序的高通量技术,其原理是将单个细胞的微量全基因组DNA或转录组RNA进行扩增,获得高覆盖率的完整基因组或转录组后进行高通量测序。

10x Genomics 是目前最主流的单细胞测序平台之一,其核心技术包括 GEM(Gel Beads-in-Emulsion)、Barcode 和 UMI(Unique Molecular Identifier)。10x Genomics 技术通过微流体“双十字”交叉系统分选单个细胞,并通过 barcode 磁珠-单细胞-油滴的对应关系形成 GEM(Gel Beads-in-emulsion),实现真正意义上的单细胞测序[8]。这种方法确保了每个细胞的基因表达数据都是独立捕获和分析的,从而提高了数据的准确性和可靠性。

单细胞测序技术的工作流程主要包括组织准备、单细胞分离与文库制备、测序以及数据分析、可视化和解释。

6.空间转录组测序(Spatial Transcriptomics)

单细胞测序实验的前提是组织必须通过机械分离或酶解消化成单细胞悬液,此过程不可避免的丢失了组织中细胞所处的原始位置信息,也导致了细胞间的通讯网络被打破,这使我们难以获得组织中不同区域的细胞构成和基因表达状态,以及不同功能区之间的基因差异表达等信息。单细胞转录组测序技术可以说是融合了高通量组学技术和传统的单细胞研究手段,即解决了通量和分辨率的问题[9]。空间转录组技术(spatial transcriptomics)则利用常规的原位技术和组学技术两方面的优势。

现有的空间转录组技术主要分为两类:一类是基于杂交和成像的方法,例如smFISH,Branched FISH;另一类是基于测序的方法,包括TIVA,ISS,FISSEQ等。smFISH,Branched FISH等靶向方法在分析的细胞数量和检测靶点的数量上都受到限制。而上述基于测序的方法虽然是可作为非靶向的筛选手段,但能够分析的细胞数量仍处在较低水平。尽管当前的空间转录组学技术的mRNA捕获效率和空间分辨率有待进一步提高,但鉴于其能解决空间结构问题,已被广泛应用于胚胎发育的时空组学图谱构建、分子和细胞分辨下重建3D器官、疾病机制和植物的细胞景观等方面的研究[10]。

参考文献:

[1] VELCULESCU V E, ZHANG L, VOGELSTEIN B, et al. Serial analysis of gene expression[J/OL]. Science (New York, N.Y.), 1995, 270(5235): 484-487. DOI:10.1126/science.270.5235.484.
[2] BOWTELL D D. Options available–from start to finish–for obtaining expression data by microarray[J/OL]. Nature Genetics, 1999, 21(1 Suppl): 25-32. DOI:10.1038/4455.
[3] WANG Z, GERSTEIN M, SNYDER M. RNA-Seq: a revolutionary tool for transcriptomics[J/OL]. Nature Reviews. Genetics, 2009, 10(1): 57-63. DOI:10.1038/nrg2484.
[4] BROWN C G, CLARKE J. Nanopore development at Oxford Nanopore[J/OL]. Nature Biotechnology, 2016, 34(8): 810-811. DOI:10.1038/nbt.3622.
[5] TANG F, BARBACIORU C, WANG Y, et al. mRNA-Seq whole-transcriptome analysis of a single cell[J/OL]. Nature Methods, 2009, 6(5): 377-382. DOI:10.1038/nmeth.1315.
[6] BUENROSTRO J D, GIRESI P G, ZABA L C, et al. Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position[J/OL]. Nature Methods, 2013, 10(12): 1213-1218. DOI:10.1038/nmeth.2688.
[7] ZOABI Y, SHOMRON N. Processing and Analysis of RNA-seq Data from Public Resources[J/OL]. Methods in Molecular Biology (Clifton, N.J.), 2021, 2243: 81-94. DOI:10.1007/978-1-0716-1103-6_4.
[8] HWANG B, LEE J H, BANG D. Single-cell RNA sequencing technologies and bioinformatics pipelines[J/OL]. Experimental & Molecular Medicine, 2018, 50(8): 1-14. DOI:10.1038/s12276-018-0071-8.
[9] RAO A, BARKLEY D, FRANÇA G S, et al. Exploring tissue architecture using spatial transcriptomics[J/OL]. Nature, 2021, 596(7871): 211-220. DOI:10.1038/s41586-021-03634-9.
[10] TIAN L, CHEN F, MACOSKO E Z. The expanding vistas of spatial transcriptomics[J/OL]. Nature Biotechnology, 2023, 41(6): 773-782. DOI:10.1038/s41587-022-01448-2.

### 使用Galaxy息学平台进行转录组测序数据分析 #### 准备工作 为了在Galaxy平台上执行转录组测序数据处理,需先上传FASTQ格式的RNA-seq原始读取文件到服务器上。这可以通过点击主页中的“Upload File”按钮来完成[^1]。 #### 参考基因组索引构建 当样本序列被成功导入之后,下一步就是创建用于比对目的的参考基因组索引。通常情况下会选用Bowtie2或Hisat2这样的工具,在Galaxy环境中它们已经被预先配置好并可以直接调用。选择相应的应用程序模块后按照提示输入参数即可建立适合特定物种和版本的映射数据库[^2]。 #### 序列比对 有了准备好的参比材料以后就可以着手做实际的reads定位操作了。推荐采用STAR这类高效能软件来进行此环节的工作;它能够快速而精准地把来自不同条件下的mRNA片段分配给对应的染色体位置,并输出SAM/BAM类型的中间成果文档以便后续分析之用[^3]。 #### 表达量估算 对于已经过质量控制并且完成了与参照模板匹配过程后的样品集合来说,现在可以计算各个特征区域内的表达水平了。常用的度量方法有FPKM (Fragments Per Kilobase Million),TPM (Transcripts per million)等指标体系。在这个阶段可借助StringTie或者featureCounts等功能组件实现自动化统计作业流程[^4]。 #### 差异表达检测 最后一步涉及识别那些在实验设定条件下表现出显著变化趋势的目标基因列表。DESeq2是一个非常流行的选择之一,因为它不仅考虑到了技术重复间的随机波动因素而且还引入了负二项分布模型来更好地描述物学意义上的离散特性。通过设置对照组对比关系以及调整p-value阈值等一系列选项最终筛选出具有潜在功能意义的关键调控因子[^5]。 ```bash # Example command line usage of tools mentioned above within Galaxy environment $ bowtie2-build reference_genome.fa ref_index --threads 8 # Build index with Bowtie2 $ STAR --runThreadN 8 --genomeDir ./ref_index/ ... # Align reads against genome using STAR $ stringtie -e -B -G annotation.gtf aligned_reads.bam # Estimate expression levels via StringTie $ DESeq2::results(dds, contrast=c("condition","treated","control")) # Perform differential expression test by DESeq2 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值