对scRNA-seq的介绍
scRNA-seq是对单个细胞进行测序分析,便于研究单个细胞水平的问题,例如:鉴定细胞类型,鉴定细胞基因表达差异,细胞反应的差异,单个细胞内部的基因表达调控。
scRNA-seq和bulk RNA-seq相似,区别只在于研究的细胞数量,后者是对同一组织的大量细胞进行转录组分析,而前者是对单个细胞进行转录组分析。
scRNA-seq的流程包括:实验流程,原始数据处理,数据分析获得生物学意义。
目前也有不同的测序方法:SMART-seq2, CELL-seq,Drop-seq。
目前也有很多商业测序平台:Fluidigm C1, Wafergen ICELL8,10XGenomics Chromium。
实验流程
scRNA-seq的实验流程包括:从组织里分离出单个细胞,提取RNA,逆转录和二链合成生成cDNA, PCR扩增cDNA, 构建测序的文库,测序,获得单细胞表达谱,鉴定细胞类型。

该图为单细胞测序的实验和分析流程。IVT是in vitro transcription, 体外转录。
目前也有一些平台搭建了测序数据分析流程:Falco, SCONE, Seurat(R包,用于QC,analysis), ASAP(Automated Single-cell Analysis Pipeline)。
目前在单细胞测序领域很大的挑战是:PCR扩增倍数, 基因信号丢失。
目前也有很多单细胞测序的实验方法,方法的关键在于基因计数和捕获单细胞效率。
计数:目前存在两种类型,即全长(Full-length)和标签计数(Tag-based)。
基于转录本全长的计数要求对全长的序列达到一致的覆盖度,然而,测序本身就对序列3’段存在偏好性。
基于标签计数,也就是只捕获3‘端的RNA序列或5’端的RNA序列,这个计数方法可以与UMI连用提高计数的效果。但是,由于仅对3‘端或5’端计数,可能会减少序列的比对效果,不利于区分不同序列。
捕获单细胞:目前捕获单细胞的策略影响了测序平台的通量。目前广泛使用的捕获单细胞方法有:mircowell-based、microfluidic-based, droplet-based,分别把细胞置于微孔板上,微流体,微滴中。
在基于微孔板的平台上,细胞通过移液枪或激光捕获进行分离并置于微孔板中。这个方法的优点是可以和流式细胞术结合,基于细胞表面分子分子筛选细胞,另一个优点是可以给细胞拍照。缺点是这个方法通常是低通量的,每个细胞需要的工作量很大。

在基于微流体的平台上,捕获细胞和文库制备过程都整合在同一张芯片上,通量较高,但是只有接近10%的细胞能够被捕获,因此,该方法并不适用于稀少的细胞,芯片很贵,但能够节省用于反应的试剂费用。

在基于微滴的平台上,用纳升的微滴将单个细胞和磁珠包裹起来,这个磁珠上面有用于构建文库的酶,特定的barcode。所有微滴都可以被混合,同时测序。基于微滴的测序平台有很高的通量,每个细胞的测序费用在0.05美元(USD)。然而,测序的费用依然限制了测序结果,测序覆盖度低,仅有几千个不同的转录本被检测。
数据分析
scRNA-seq的数据分析流程包括:
- 序列质控(FASTQC)
- trimming去除adapter
- 序列比对生成BAM文件
通过FASTQC,可以知道测序的序列质量。FASTQC后会生成一个.zip文件和一个.html文件,可以通过filezilla或者scp将结果下载下来。
通过trimming(修剪)可以去除序列的adapters(接头)和低质量的序列。
利用trim_galore可以去除有问题的adapters(通过FastQC report “Adapter Content”图查看adapter的情况)。对序列进行trimming后再用FASTQC产生另一个报告进行比对。
测序文件的类型:
从测序平台下载下来的原始数据为FastQ数据。对于单细胞测序来说,所有的测序方法都是采用双端测序。
根据测序的方法,Barcode序列可能或出现在一条或单条reads上。
根据实验方法,利用UMI(Unique modified identifier)的实验技术,序列通常会包括adapters, UMI barcodes和cell barcodes。
FastQ 文件的数据格式:

将FastQ文件进行samtools比对后获得BAM文件,BAM文件存储比对的序列信息。一些仪器会将FastQ序列直接比对到一个标准基因组上,生成BAM或者CRAM文件。然而,这样的比对并没有包括外源的参考RNA序列ERCC(External RNA Controls Consortium),因此ERCC序列便不会生成BAM/CRAM文件。为了保证能比对到多个位置的序列最终结果只有一条序列上,可以用samtools去除除第一条以外的其它序列。CRAM文件和BAM序列相似。
用于比对的参考序列是基因组序列(FASTA)以及注释文件(GTF),这些文件可以来源于Ensembl, NCBI, UCSC Genome Browser。
来源于不同版本的基因组中,Ensembl版本是最易使用且含有大量的注释信息,NCBI的注释非常严格,注释可信度高,UCSC版本含有运用不同标准的大量基因注释信息。
测序数据的分解
测序原始数据分解是否需要使用,依赖于实验方法。
目前最灵活的用于分解测序原始数据的流程是zUMIs。
对于某些测序方法,返回的原始数据已经进行分解,例如:Smartseq2 或者一些双端测序方法。
在公共数据库GEO和ArrayExpress中,小规模数据或基于微孔板测序的数据需分解后才能上传,而且多数测序仪器都会自动分解数据再返回给用户。
如果使用的不是公共流程,原始数据并没有被分解,则需要用户自己来分解原始数据。
分解数据需要确定并移除序列的cell-barcodes(如果有UMI,也需要分解UMI值)。分解数据前,应该提前知道数据的cell-barcodes。而且,需对原始数据中的cell-barcodes与预期的cell-barcodes进行比较,因为,由于cell-barcodes本身的设计,会存在部分barcodes的错配。
对于包括UMI的测序原始数据,分解时应将UMI的代码放在基因转录本的名称前面。对于Barcode数远大于细胞数,那么barcode也会被放在基因转录本名称前。
基于微滴(droplet-based)的实验方法中,仅有部分微滴含有磁珠和完整的细胞。一些从死亡破碎的细胞中产生的RNA序列也落入微滴中,经过扩增,测序,成为了单细胞测序的背景噪音。
为了去除这一来源的背景,使用多种方法。
例如:通过对每个cell-barcode对应的转录本分子进行统计,试图找到大文库和小文库序列之间的"break point", 并将小文库样本视为背景处理,即找到每个cell-barcode下文库大小的变化的突变值(可进行log转化或不进行转化)。

或者是将每个样本的数据分布情况进行整合,找到低分布和高分布数据之间的交叉点。
序列的比对
将原始数据序列进行质量控制,trim adapter以及 demultiplex cell barcodes, UMI后,就要将原始数据和参考基因组进行比对。
分解好的测序数据,可以用STAR或者Kallisto去比对序列,序列比对的策略包括两种,STAR的sequence alignment 以及Kallisto的Pseudo-Alignment
利用STAR进行序列比对,也就是常规的reads mapping 到参考基因组上。
STAR会尽可能找到比对到基因组上的最长的序列,也被称之为"splice aware"的对比方法,也就是说STAR比对序列的时候,能够对应识别RNA的剪接事件,跨外显子查找序列。
通常STAR比对,能够发现RNA上新的剪接事件,但运行该程序需要很大的内存。
运行STAR的时候,用户首先需要提供参考基因组序列和注释序列,STAR生成基因组索引。然后,STAR才会将用户的reads数比对到基因组索引上。

该图表明RNA-seq的序列部分比对到基因组上的外显子区域,另一部分再截取出来,比对到基因的另一个外显子区域。
另一种比对方法是Kallisto的伪比对方法(Pseudo-Alignment),和STAR的比对方法的区别在于Kallisto的伪比对是将k-mers比对到参考基因组上。
k-mers是reads转化而成,也就是reads转化成k-mers,k可以为5,6,7等,分别对应长度为5,6,7的k-mers。

该图表明为一条序列能够生成的k-mers
Kallisto Pseudo-aligner相较于STAR的比对,速度更快,同时在某些情况下,Kallisto pseudo-aligner的方法更能够适应测序错误,原因在于第一个k-mer第一个碱基出现的测序错误,并不会在第二个k-mer上出现。
其次, Kallisto Pseudo-aligner比对的参考基因是参考转录组,这表明Kallisto Pseudo-aligner比对的是RNA异构剪接体。
然而,scRNA-seq本身测序覆盖率低于bulk RNA-seq, 因此用于比对的有用测序信息就会减少。
许多scRNA-seq方法具有3’-端的偏好性,这也意味着当两个isoform的转录本的区别发生在5’端,则不能清楚知道序列来源于哪一个isoform转录本。
部分scRNA-seq的流程中,转录本的序列长度很短,则更不能清楚地知道序列来源的isoform。
Kallisto的pseudo alignment比对时,会将序列比对到一个等价的转录本聚集体上,这意味着如果一条序列比对到多个转录本上,Kallisto会记录比对到多个转录本的情况。这多个转录本形成的聚集体,也就是equivanlance class。

该图表明Kallisto的Equivalance Classes的集合
Kallisto Pseudo-Alignment比对的输出结果是matrix.cells, matrix.ec,matrix.tsv和run_info.json。
matrix.cells:包含的内容是细胞的IDs信息
matrix.ec:包含的是equivalence class的信息。
matrix.tsv: 包含的信息是每一个细胞有多少的reads比对到equivanlance class中。
run_info.jason:包含的

scRNA-seq是单细胞转录组测序技术,用于研究单细胞层面的基因表达差异和细胞类型鉴定。实验流程包括细胞分离、RNA提取、cDNA合成、测序文库构建及测序。数据分析涉及序列质量控制、比对、细胞和基因质控、去除技术噪声、特征基因筛选和差异基因分析。常用工具如STAR、Kallisto、Seurat等。此外,还讨论了伪时序分析、信号丢失归因和差异基因检测方法,如DESeq2、edgeR等。
最低0.47元/天 解锁文章
9099

被折叠的 条评论
为什么被折叠?



