scRNA-seq Course 学习

最新推荐文章于 2024-04-21 12:58:39 发布

原创

最新推荐文章于 2024-04-21 12:58:39 发布 · 7.3k 阅读

33 ·

CC 4.0 BY-SA版权

scRNA-seq是单细胞转录组测序技术，用于研究单细胞层面的基因表达差异和细胞类型鉴定。实验流程包括细胞分离、RNA提取、cDNA合成、测序文库构建及测序。数据分析涉及序列质量控制、比对、细胞和基因质控、去除技术噪声、特征基因筛选和差异基因分析。常用工具如STAR、Kallisto、Seurat等。此外，还讨论了伪时序分析、信号丢失归因和差异基因检测方法，如DESeq2、edgeR等。

对scRNA-seq的介绍

scRNA-seq是对单个细胞进行测序分析，便于研究单个细胞水平的问题，例如：鉴定细胞类型，鉴定细胞基因表达差异，细胞反应的差异，单个细胞内部的基因表达调控。

scRNA-seq和bulk RNA-seq相似，区别只在于研究的细胞数量，后者是对同一组织的大量细胞进行转录组分析，而前者是对单个细胞进行转录组分析。
scRNA-seq的流程包括：实验流程，原始数据处理，数据分析获得生物学意义。

目前也有不同的测序方法：SMART-seq2, CELL-seq，Drop-seq。
目前也有很多商业测序平台：Fluidigm C1, Wafergen ICELL8，10XGenomics Chromium。

实验流程

scRNA-seq的实验流程包括：从组织里分离出单个细胞，提取RNA，逆转录和二链合成生成cDNA, PCR扩增cDNA, 构建测序的文库，测序，获得单细胞表达谱，鉴定细胞类型。
在这里插入图片描述
该图为单细胞测序的实验和分析流程。IVT是in vitro transcription, 体外转录。

目前也有一些平台搭建了测序数据分析流程：Falco, SCONE, Seurat（R包，用于QC，analysis）, ASAP(Automated Single-cell Analysis Pipeline)。

目前在单细胞测序领域很大的挑战是：PCR扩增倍数, 基因信号丢失。

目前也有很多单细胞测序的实验方法，方法的关键在于基因计数和捕获单细胞效率。

计数：目前存在两种类型，即全长（Full-length）和标签计数（Tag-based）。
基于转录本全长的计数要求对全长的序列达到一致的覆盖度，然而，测序本身就对序列3’段存在偏好性。
基于标签计数，也就是只捕获3‘端的RNA序列或5’端的RNA序列，这个计数方法可以与UMI连用提高计数的效果。但是，由于仅对3‘端或5’端计数，可能会减少序列的比对效果，不利于区分不同序列。
捕获单细胞：目前捕获单细胞的策略影响了测序平台的通量。目前广泛使用的捕获单细胞方法有：mircowell-based、microfluidic-based, droplet-based，分别把细胞置于微孔板上，微流体，微滴中。
在基于微孔板的平台上，细胞通过移液枪或激光捕获进行分离并置于微孔板中。这个方法的优点是可以和流式细胞术结合，基于细胞表面分子分子筛选细胞，另一个优点是可以给细胞拍照。缺点是这个方法通常是低通量的，每个细胞需要的工作量很大。
在这里插入图片描述

在基于微流体的平台上，捕获细胞和文库制备过程都整合在同一张芯片上，通量较高，但是只有接近10%的细胞能够被捕获，因此，该方法并不适用于稀少的细胞，芯片很贵，但能够节省用于反应的试剂费用。
在这里插入图片描述

在基于微滴的平台上，用纳升的微滴将单个细胞和磁珠包裹起来，这个磁珠上面有用于构建文库的酶，特定的barcode。所有微滴都可以被混合，同时测序。基于微滴的测序平台有很高的通量，每个细胞的测序费用在0.05美元（USD）。然而，测序的费用依然限制了测序结果，测序覆盖度低，仅有几千个不同的转录本被检测。在这里插入图片描述

数据分析

scRNA-seq的数据分析流程包括:

序列质控（FASTQC)
trimming去除adapter
序列比对生成BAM文件
通过FASTQC,可以知道测序的序列质量。FASTQC后会生成一个.zip文件和一个.html文件，可以通过filezilla或者scp将结果下载下来。
通过trimming（修剪）可以去除序列的adapters（接头）和低质量的序列。
利用trim_galore可以去除有问题的adapters（通过FastQC report “Adapter Content”图查看adapter的情况）。对序列进行trimming后再用FASTQC产生另一个报告进行比对。

测序文件的类型：

从测序平台下载下来的原始数据为FastQ数据。对于单细胞测序来说，所有的测序方法都是采用双端测序。
根据测序的方法，Barcode序列可能或出现在一条或单条reads上。
根据实验方法，利用UMI（Unique modified identifier）的实验技术，序列通常会包括adapters, UMI barcodes和cell barcodes。
FastQ 文件的数据格式：
在这里插入图片描述
将FastQ文件进行samtools比对后获得BAM文件，BAM文件存储比对的序列信息。一些仪器会将FastQ序列直接比对到一个标准基因组上，生成BAM或者CRAM文件。然而，这样的比对并没有包括外源的参考RNA序列ERCC（External RNA Controls Consortium），因此ERCC序列便不会生成BAM/CRAM文件。为了保证能比对到多个位置的序列最终结果只有一条序列上，可以用samtools去除除第一条以外的其它序列。CRAM文件和BAM序列相似。

用于比对的参考序列是基因组序列（FASTA）以及注释文件(GTF),这些文件可以来源于Ensembl, NCBI, UCSC Genome Browser。
来源于不同版本的基因组中，Ensembl版本是最易使用且含有大量的注释信息，NCBI的注释非常严格，注释可信度高，UCSC版本含有运用不同标准的大量基因注释信息。

测序数据的分解

测序原始数据分解是否需要使用，依赖于实验方法。
目前最灵活的用于分解测序原始数据的流程是zUMIs。

对于某些测序方法，返回的原始数据已经进行分解，例如：Smartseq2 或者一些双端测序方法。
在公共数据库GEO和ArrayExpress中，小规模数据或基于微孔板测序的数据需分解后才能上传，而且多数测序仪器都会自动分解数据再返回给用户。
如果使用的不是公共流程，原始数据并没有被分解，则需要用户自己来分解原始数据。

分解数据需要确定并移除序列的cell-barcodes（如果有UMI，也需要分解UMI值）。分解数据前，应该提前知道数据的cell-barcodes。而且，需对原始数据中的cell-barcodes与预期的cell-barcodes进行比较，因为，由于cell-barcodes本身的设计，会存在部分barcodes的错配。

对于包括UMI的测序原始数据，分解时应将UMI的代码放在基因转录本的名称前面。对于Barcode数远大于细胞数，那么barcode也会被放在基因转录本名称前。

基于微滴（droplet-based）的实验方法中，仅有部分微滴含有磁珠和完整的细胞。一些从死亡破碎的细胞中产生的RNA序列也落入微滴中，经过扩增，测序，成为了单细胞测序的背景噪音。
为了去除这一来源的背景，使用多种方法。
例如：通过对每个cell-barcode对应的转录本分子进行统计，试图找到大文库和小文库序列之间的"break point", 并将小文库样本视为背景处理，即找到每个cell-barcode下文库大小的变化的突变值（可进行log转化或不进行转化）。
在这里插入图片描述
或者是将每个样本的数据分布情况进行整合，找到低分布和高分布数据之间的交叉点。

序列的比对

将原始数据序列进行质量控制，trim adapter以及 demultiplex cell barcodes, UMI后，就要将原始数据和参考基因组进行比对。

分解好的测序数据，可以用STAR或者Kallisto去比对序列，序列比对的策略包括两种，STAR的sequence alignment 以及Kallisto的Pseudo-Alignment

利用STAR进行序列比对，也就是常规的reads mapping 到参考基因组上。
STAR会尽可能找到比对到基因组上的最长的序列，也被称之为"splice aware"的对比方法，也就是说STAR比对序列的时候，能够对应识别RNA的剪接事件，跨外显子查找序列。
通常STAR比对，能够发现RNA上新的剪接事件，但运行该程序需要很大的内存。
运行STAR的时候，用户首先需要提供参考基因组序列和注释序列，STAR生成基因组索引。然后，STAR才会将用户的reads数比对到基因组索引上。
在这里插入图片描述
该图表明RNA-seq的序列部分比对到基因组上的外显子区域，另一部分再截取出来，比对到基因的另一个外显子区域。

另一种比对方法是Kallisto的伪比对方法（Pseudo-Alignment），和STAR的比对方法的区别在于Kallisto的伪比对是将k-mers比对到参考基因组上。
k-mers是reads转化而成，也就是reads转化成k-mers,k可以为5，6，7等，分别对应长度为5，6，7的k-mers。
在这里插入图片描述
该图表明为一条序列能够生成的k-mers

Kallisto Pseudo-aligner相较于STAR的比对，速度更快，同时在某些情况下，Kallisto pseudo-aligner的方法更能够适应测序错误，原因在于第一个k-mer第一个碱基出现的测序错误，并不会在第二个k-mer上出现。

其次, Kallisto Pseudo-aligner比对的参考基因是参考转录组，这表明Kallisto Pseudo-aligner比对的是RNA异构剪接体。

然而，scRNA-seq本身测序覆盖率低于bulk RNA-seq, 因此用于比对的有用测序信息就会减少。
许多scRNA-seq方法具有3’-端的偏好性，这也意味着当两个isoform的转录本的区别发生在5’端，则不能清楚知道序列来源于哪一个isoform转录本。
部分scRNA-seq的流程中，转录本的序列长度很短，则更不能清楚地知道序列来源的isoform。
Kallisto的pseudo alignment比对时，会将序列比对到一个等价的转录本聚集体上，这意味着如果一条序列比对到多个转录本上，Kallisto会记录比对到多个转录本的情况。这多个转录本形成的聚集体，也就是equivanlance class。
在这里插入图片描述
该图表明Kallisto的Equivalance Classes的集合

Kallisto Pseudo-Alignment比对的输出结果是matrix.cells, matrix.ec，matrix.tsv和run_info.json。
matrix.cells：包含的内容是细胞的IDs信息
matrix.ec：包含的是equivalence class的信息。
matrix.tsv: 包含的信息是每一个细胞有多少的reads比对到equivanlance class中。
run_info.jason：包含的