scRNA-seq Course 学习

scRNA-seq是单细胞转录组测序技术,用于研究单细胞层面的基因表达差异和细胞类型鉴定。实验流程包括细胞分离、RNA提取、cDNA合成、测序文库构建及测序。数据分析涉及序列质量控制、比对、细胞和基因质控、去除技术噪声、特征基因筛选和差异基因分析。常用工具如STAR、Kallisto、Seurat等。此外,还讨论了伪时序分析、信号丢失归因和差异基因检测方法,如DESeq2、edgeR等。

对scRNA-seq的介绍

scRNA-seq是对单个细胞进行测序分析,便于研究单个细胞水平的问题,例如:鉴定细胞类型,鉴定细胞基因表达差异,细胞反应的差异,单个细胞内部的基因表达调控。

scRNA-seq和bulk RNA-seq相似,区别只在于研究的细胞数量,后者是对同一组织的大量细胞进行转录组分析,而前者是对单个细胞进行转录组分析。
scRNA-seq的流程包括:实验流程,原始数据处理,数据分析获得生物学意义。

目前也有不同的测序方法:SMART-seq2, CELL-seq,Drop-seq。
目前也有很多商业测序平台:Fluidigm C1, Wafergen ICELL8,10XGenomics Chromium。

实验流程

scRNA-seq的实验流程包括:从组织里分离出单个细胞,提取RNA,逆转录和二链合成生成cDNA, PCR扩增cDNA, 构建测序的文库,测序,获得单细胞表达谱,鉴定细胞类型。
在这里插入图片描述
该图为单细胞测序的实验和分析流程。IVT是in vitro transcription, 体外转录。

目前也有一些平台搭建了测序数据分析流程:Falco, SCONE, Seurat(R包,用于QC,analysis), ASAP(Automated Single-cell Analysis Pipeline)。

目前在单细胞测序领域很大的挑战是:PCR扩增倍数, 基因信号丢失。

目前也有很多单细胞测序的实验方法,方法的关键在于基因计数和捕获单细胞效率。

计数:目前存在两种类型,即全长(Full-length)和标签计数(Tag-based)。
基于转录本全长的计数要求对全长的序列达到一致的覆盖度,然而,测序本身就对序列3’段存在偏好性。
基于标签计数,也就是只捕获3‘端的RNA序列或5’端的RNA序列,这个计数方法可以与UMI连用提高计数的效果。但是,由于仅对3‘端或5’端计数,可能会减少序列的比对效果,不利于区分不同序列。
捕获单细胞:目前捕获单细胞的策略影响了测序平台的通量。目前广泛使用的捕获单细胞方法有:mircowell-based、microfluidic-based, droplet-based,分别把细胞置于微孔板上,微流体,微滴中。
在基于微孔板的平台上,细胞通过移液枪或激光捕获进行分离并置于微孔板中。这个方法的优点是可以和流式细胞术结合,基于细胞表面分子分子筛选细胞,另一个优点是可以给细胞拍照。缺点是这个方法通常是低通量的,每个细胞需要的工作量很大。
在这里插入图片描述

在基于微流体的平台上,捕获细胞和文库制备过程都整合在同一张芯片上,通量较高,但是只有接近10%的细胞能够被捕获,因此,该方法并不适用于稀少的细胞,芯片很贵,但能够节省用于反应的试剂费用。
在这里插入图片描述

在基于微滴的平台上,用纳升的微滴将单个细胞和磁珠包裹起来,这个磁珠上面有用于构建文库的酶,特定的barcode。所有微滴都可以被混合,同时测序。基于微滴的测序平台有很高的通量,每个细胞的测序费用在0.05美元(USD)。然而,测序的费用依然限制了测序结果,测序覆盖度低,仅有几千个不同的转录本被检测。在这里插入图片描述

数据分析

scRNA-seq的数据分析流程包括:

  1. 序列质控(FASTQC)
  2. trimming去除adapter
  3. 序列比对生成BAM文件
    通过FASTQC,可以知道测序的序列质量。FASTQC后会生成一个.zip文件和一个.html文件,可以通过filezilla或者scp将结果下载下来。
    通过trimming(修剪)可以去除序列的adapters(接头)和低质量的序列。
    利用trim_galore可以去除有问题的adapters(通过FastQC report “Adapter Content”图查看adapter的情况)。对序列进行trimming后再用FASTQC产生另一个报告进行比对。

测序文件的类型:

从测序平台下载下来的原始数据为FastQ数据。对于单细胞测序来说,所有的测序方法都是采用双端测序。
根据测序的方法,Barcode序列可能或出现在一条或单条reads上。
根据实验方法,利用UMI(Unique modified identifier)的实验技术,序列通常会包括adapters, UMI barcodes和cell barcodes。
FastQ 文件的数据格式:
在这里插入图片描述
将FastQ文件进行samtools比对后获得BAM文件,BAM文件存储比对的序列信息。一些仪器会将FastQ序列直接比对到一个标准基因组上,生成BAM或者CRAM文件。然而,这样的比对并没有包括外源的参考RNA序列ERCC(External RNA Controls Consortium),因此ERCC序列便不会生成BAM/CRAM文件。为了保证能比对到多个位置的序列最终结果只有一条序列上,可以用samtools去除除第一条以外的其它序列。CRAM文件和BAM序列相似。

用于比对的参考序列是基因组序列(FASTA)以及注释文件(GTF),这些文件可以来源于Ensembl, NCBI, UCSC Genome Browser。
来源于不同版本的基因组中,Ensembl版本是最易使用且含有大量的注释信息,NCBI的注释非常严格,注释可信度高,UCSC版本含有运用不同标准的大量基因注释信息。

测序数据的分解

测序原始数据分解是否需要使用,依赖于实验方法。
目前最灵活的用于分解测序原始数据的流程是zUMIs。

对于某些测序方法,返回的原始数据已经进行分解,例如:Smartseq2 或者一些双端测序方法。
在公共数据库GEO和ArrayExpress中,小规模数据或基于微孔板测序的数据需分解后才能上传,而且多数测序仪器都会自动分解数据再返回给用户。
如果使用的不是公共流程,原始数据并没有被分解,则需要用户自己来分解原始数据。

分解数据需要确定并移除序列的cell-barcodes(如果有UMI,也需要分解UMI值)。分解数据前,应该提前知道数据的cell-barcodes。而且,需对原始数据中的cell-barcodes与预期的cell-barcodes进行比较,因为,由于cell-barcodes本身的设计,会存在部分barcodes的错配。

对于包括UMI的测序原始数据,分解时应将UMI的代码放在基因转录本的名称前面。对于Barcode数远大于细胞数,那么barcode也会被放在基因转录本名称前。

基于微滴(droplet-based)的实验方法中,仅有部分微滴含有磁珠和完整的细胞。一些从死亡破碎的细胞中产生的RNA序列也落入微滴中,经过扩增,测序,成为了单细胞测序的背景噪音。
为了去除这一来源的背景,使用多种方法。
例如:通过对每个cell-barcode对应的转录本分子进行统计,试图找到大文库和小文库序列之间的"break point", 并将小文库样本视为背景处理,即找到每个cell-barcode下文库大小的变化的突变值(可进行log转化或不进行转化)。
在这里插入图片描述
或者是将每个样本的数据分布情况进行整合,找到低分布和高分布数据之间的交叉点。

序列的比对

将原始数据序列进行质量控制,trim adapter以及 demultiplex cell barcodes, UMI后,就要将原始数据和参考基因组进行比对。

分解好的测序数据,可以用STAR或者Kallisto去比对序列,序列比对的策略包括两种,STAR的sequence alignment 以及Kallisto的Pseudo-Alignment

利用STAR进行序列比对,也就是常规的reads mapping 到参考基因组上。
STAR会尽可能找到比对到基因组上的最长的序列,也被称之为"splice aware"的对比方法,也就是说STAR比对序列的时候,能够对应识别RNA的剪接事件,跨外显子查找序列。
通常STAR比对,能够发现RNA上新的剪接事件,但运行该程序需要很大的内存。
运行STAR的时候,用户首先需要提供参考基因组序列和注释序列,STAR生成基因组索引。然后,STAR才会将用户的reads数比对到基因组索引上。
在这里插入图片描述
该图表明RNA-seq的序列部分比对到基因组上的外显子区域,另一部分再截取出来,比对到基因的另一个外显子区域。

另一种比对方法是Kallisto的伪比对方法(Pseudo-Alignment),和STAR的比对方法的区别在于Kallisto的伪比对是将k-mers比对到参考基因组上。
k-mers是reads转化而成,也就是reads转化成k-mers,k可以为5,6,7等,分别对应长度为5,6,7的k-mers。
在这里插入图片描述
该图表明为一条序列能够生成的k-mers

Kallisto Pseudo-aligner相较于STAR的比对,速度更快,同时在某些情况下,Kallisto pseudo-aligner的方法更能够适应测序错误,原因在于第一个k-mer第一个碱基出现的测序错误,并不会在第二个k-mer上出现。

其次, Kallisto Pseudo-aligner比对的参考基因是参考转录组,这表明Kallisto Pseudo-aligner比对的是RNA异构剪接体。

然而,scRNA-seq本身测序覆盖率低于bulk RNA-seq, 因此用于比对的有用测序信息就会减少。
许多scRNA-seq方法具有3’-端的偏好性,这也意味着当两个isoform的转录本的区别发生在5’端,则不能清楚知道序列来源于哪一个isoform转录本。
部分scRNA-seq的流程中,转录本的序列长度很短,则更不能清楚地知道序列来源的isoform。
Kallisto的pseudo alignment比对时,会将序列比对到一个等价的转录本聚集体上,这意味着如果一条序列比对到多个转录本上,Kallisto会记录比对到多个转录本的情况。这多个转录本形成的聚集体,也就是equivanlance class。
在这里插入图片描述
该图表明Kallisto的Equivalance Classes的集合

Kallisto Pseudo-Alignment比对的输出结果是matrix.cells, matrix.ec,matrix.tsv和run_info.json。
matrix.cells:包含的内容是细胞的IDs信息
matrix.ec:包含的是equivalence class的信息。
matrix.tsv: 包含的信息是每一个细胞有多少的reads比对到equivanlance class中。
run_info.jason:包含的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值