单细胞RNA测序技术发展:
│
├── 起源与发展
│ ├── 2009年:陶复仇教授首次提出
│ └── 初期通量较低
│
├── 技术进步
│ ├── 商业化技术:时程技术、BD技术
│ ├── 微孔技术的应用
│ └── 成本逐渐降低
│
├── 传统RNA测序方法的局限性
│ ├── RT-PCR:只能检测单一细胞或组织
│ └── 基因芯片:只能提供混合数据,缺乏细胞特异性
│
├── 单细胞RNA测序的优势
│ ├── 精准识别单细胞基因表达
│ ├── 解析组织复杂性
│ └── 解决细胞间基因表达异质性
│
└── 在疾病研究中的应用
├── 疾病机制解析
└── 基因表达在特定细胞类型中的作用
单细胞RNA测序的实验部分:
10×法:
1. 样本准备与细胞解离
- 在进行单细胞RNA测序时,首先需要从样本中提取细胞。对于一些液体样本(如血液、胸水或腹水),通常不需要解离处理,直接即可进行建库。
- 对于固体组织(如肿瘤组织等),需要通过物理和酶解两种方式进行细胞解离。首先使用物理方法将组织剪碎,然后加消化酶进一步分解,最终得到细胞悬液。
- 细胞的活性对于后续的基因表达数据至关重要。如果细胞死亡,基因表达会发生偏移,因此在细胞解离时,需要注意保持细胞的活性。
2. 单细胞分离
- 细胞解离后,会使用一些先进的技术(如BD技术)将单个细胞从混合悬液中分离出来。常用的技术是基于油滴技术,每个油滴会包裹一个单独的细胞。
- 通过这种油滴技术,细胞被精确地分隔开,并且每个细胞都带有一个唯一的标记。这些标记通常是一些"条形码"序列,用于在数据分析时追踪每个细胞的基因表达。
3. 建库与测序
- 单细胞RNA测序的关键步骤之一是建库。在这一过程中,细胞内的RNA会被提取,并进行反转录,将其转化为cDNA。接着,使用特定的试剂和酶对cDNA进行扩增,最后将其转化为可测序的文库。
- 每个细胞的RNA信息会通过这些"条形码"与特定的细胞关联。最终生成的文库会被送去进行高通量测序,获取基因的表达数据。
4. 数据分析
- 测序完成后,得到的基因序列数据通常是以FASTQ格式存储的。通过比对软件,将测序数据比对到参考基因组,得到每个基因的表达量信息。
- 之后,会生成一个“计数矩阵”(count matrix),记录每个基因在各个细胞中的表达量。
- 这些数据会经过进一步的处理和分析,利用各种分析工具(如Seurat、Scanpy等)进行细胞群体的识别、基因表达特征的分析,以及群体间差异的比较。
5. 结果报告与细胞群体分析
- 数据分析的初步结果通常包括细胞群体的划分和基因表达模式的分析。报告中通常会给出细胞群体的划分结果,但并不总是详细标注每个群体的细胞类型。因此,研究人员需要深入分析这些群体,结合其他实验数据进行细胞的类型识别。
- 许多商业服务提供商会提供初步的数据分析报告,但这些报告并不总是能满足所有研究需求,特别是在细胞类型的准确识别和基因功能的具体分析上,研究人员往往需要自行优化分析方法。
BD法:
BD Rhapsody 采用的是微孔板(microwell-based)技术
细胞悬液制备:同样需要经过组织解离、细胞活性检测,制备单细胞悬液。
- 微孔阵列捕获:细胞悬液被随机分配到一个包含约 20 万个微孔的板子上,细胞随机落入这些微孔中。
- 磁珠标记:随后,每个微孔中加入磁珠(Magnetic Beads),磁珠的大小与微孔匹配,每个微孔中只能容纳一个磁珠。磁珠表面带有条形码(Barcode)和逆转录引物,用于后续的 cDNA 合成。
- 细胞裂解与逆转录:加入细胞裂解液后,RNA 释放并结合到磁珠表面的引物上,随后进行逆转录,合成 cDNA。
- 磁性分离:利用磁场回收带有 cDNA 的磁珠,再进行建库和测序。
Smart-seq法:
- 单细胞捕获:通常利用荧光激活细胞分选技术(FACS) 或 微孔阵列 进行单细胞分离。
- RNA提取与逆转录:
- 采用 polyT 引物 结合 mRNA 的 polyA 尾部 进行逆转录(RT),生成 cDNA。
- 过程中会加入特殊接头序列(template-switching),提高反应效率。
- 全长扩增:
- 采用 Tn5 转座酶(Tagmentation) 进行 cDNA 片段化,并添加测序接头。
- 随后进行 PCR 扩增,构建测序文库。
- 高通量测序:利用 Illumina 或 PacBio 平台进行测序,获得全长转录本信息。
三者比较:
特性 | 10x Genomics(石层) | BD Rhapsody | Smart-seq |
测序策略 | 3' 端测序 | 3' 端测序 | 全长转录组测序 |
双细胞误差(Doublet rate) | 高 | 低,可影像质控 | 低(单细胞分选) |
单细胞捕获方式 | 油包水微流控 | 微孔阵列+磁珠 | FACS 或微孔板 |
基因检测数量 | 1000~2000 个 | 1000~2000 个 | 10000+ 个 |
可变剪切检测 | ❌ | ❌ | ✅ 可分析选择性剪切 |
基因突变检测 | ❌ | ❌ | ✅ 可检测 SNV、融合基因 |
测序成本 | 低(每个细胞 <10 元) | 低(每个细胞 <10 元) | 高(每个细胞 2000 元) |
适合研究方向 | 大规模细胞群体 | 低细胞数+影像质控 | 深入功能研究(基因变异、剪切) |
单细胞RNA测序的基本流程:
📂 Raw Data(原始数据)
├── 🛠 Quality Control(质量控制)
│ ├── 过滤低质量细胞
│ ├── 过滤线粒体基因含量过高的细胞
│ ├── 过滤低 UMI 计数的细胞
│
├── 🏷 Cell Barcode Extraction(细胞条形码提取)
│ ├── 识别并提取细胞条形码
│ ├── 过滤掉低质量条形码
│
├── 🔬 RNA Mapping(RNA 比对)
│ ├── 参考基因组比对(如 STAR、Cell Ranger)
│ ├── 计算基因表达矩阵
│
├── 📊 Gene Barcode Matrix(基因条形码矩阵)
│ ├── 构建细胞-基因表达矩阵
│
├── 🏗 Cell Filtering(细胞过滤)
│ ├── 去除双细胞、死细胞、低质量细胞
│
├── 🔄 Data Normalization(数据归一化)
│ ├── 归一化基因表达水平
│ ├── 去除批次效应(如 Seurat、Harmony)
│
├── 🔬 Cell Clustering(细胞聚类)
│ ├── 降维(PCA、t-SNE、UMAP)
│ ├── 细胞聚类(Louvain、K-means)
│
├── 🧩 Clinical Relevance Analysis(临床相关性分析)
│ ├── 关联临床数据,寻找疾病特征
│
├── 🔍 Regulatory Analysis(调控网络分析)
│ ├── 识别转录因子、调控元件
│
├── 🔄 Cell-Cell Interaction(细胞互作分析)
│ ├── 研究不同细胞类型之间的互作关系
│ ├── 细胞通讯分析(如 CellPhoneDB)
│
├── ⏳ Pseudotime Analysis(拟时序分析)
│ ├── 研究细胞发育轨迹(如 Monocle、Slingshot)
│
├── 🔬 Marker Gene Detection(标志基因检测)
│ ├── 识别各个细胞群体的特征基因
│
├── 🧬 Cell Type Identification(细胞类型鉴定)
│ ├── 结合 Marker 基因与数据库(如 CellMarker、SingleR)
│
├── 📉 DEG Analysis(差异基因分析)
│ ├── 比较不同细胞群体的基因表达差异
│ ├── 统计学分析(如 DESeq2、limma)
│
├── 📊 GO/KEGG Analysis(功能富集分析)
│ ├── 研究基因功能(GO)
│ ├── 研究信号通路(KEGG)
单细胞测序数据分析结果基本解读:
1.测序质量和细胞数量预估

2.细胞质量检测和过滤

3.细胞亚群分析
在获取高质量的 RNA-seq 数据矩阵后,我们需要对单细胞数据进行降维分析和细胞聚类。目前,降维方法有很多,例如:
- 主成分分析(PCA, Principal Component Analysis)
- t-SNE(t-Distributed Stochastic Neighbor Embedding)
- UMAP(Uniform Manifold Approximation and Projection)
- FIt-SNE(Fast Interpolation-based t-SNE)
- 其他新兴降维方法
这些方法的核心思想是将 高维数据映射到低维(通常是二维)空间,使得相似的细胞能够聚集在一起,便于进行可视化和进一步分析。
区别:

降维后,我们可以利用不同的聚类算法(如 Louvain 聚类、K-means 聚类)对细胞进行分类。例如,在 肿瘤组织 中,我们可以通过降维分析将免疫细胞、上皮细胞、基质细胞等不同类型的细胞区分开来。

4.Marker基因鉴定/自动注释
在单细胞亚群分析的早期阶段,我们通常会使用数字编号(如 0、1、2、3)来标识不同的细胞群体。随后,我们可以根据 Marker 基因(标志基因)来对这些细胞群体进行注释和命名。目前,由于大量单细胞数据已经被分析和整理,许多自动注释工具应运而生。今天,我们将介绍两种用于自动注释的 R 软件包,它们可以帮助我们基于 Marker 基因快速识别细胞类型。
在注释过程中,我们可以观察 Marker 基因的表达情况,并据此判断某个细胞群体是 T 细胞、髓系细胞、成纤维细胞(Fibroblast),还是 上皮细胞 等。如果在分析过程中发现了新的细胞亚群,并对其中某一类细胞特别感兴趣,我们可以进一步开展差异基因表达(DEG)分析,筛选出该亚群中特异性高表达的基因,并深入研究其功能。
如果某个特定基因位于细胞膜表面,我们可以进一步采用 流式细胞术(FACS) 或其他实验方法,在实际样本中进行验证。
基因差异表达分析及功能解析
在细胞分群和注释完成后,我们可以比较不同细胞群体之间的基因表达差异。通过高通量数据分析,我们可以筛选出差异表达基因(DEGs),并利用这些基因来进行基因功能富集分析。
功能分析的主要目标包括:
- 识别活性增加或降低的信号通路
- 探索特定细胞群体可能的新功能
- 研究细胞亚群在疾病或生理状态下的作用
例如,在 成纤维细胞(Fibroblast) 中,传统观点认为它主要作为基质细胞,提供组织和器官的支持。然而,最新研究发现,在部分 Fibroblast 细胞群体中,某些细胞高表达 MHC-II 分子。MHC-II 主要负责抗原呈递,这表明这些特定的 Fibroblast 可能具有抗原提呈功能,并在免疫调控过程中发挥作用。
通过进一步的 基因功能分析(如 GO/KEGG 富集分析),我们可以发现这一细胞亚群在 抗原加工与呈递(Antigen Processing & Presentation) 方面的功能显著增强。这一发现可能为 成纤维细胞在免疫系统中的新功能 提供新的研究思路,从而提升单细胞研究的深度和价值。

5.细胞亚群特异基因表达和功能分析

6.拟时序分析


拟时序分析(Pseudotime Analysis)是一种常用的方法,特别适用于胚胎发育研究、疾病进展分析等场景。在相关研究文章中,我们经常可以看到这一分析方法的应用。
值得注意的是,拟时序分析并不是通过体外实验诱导细胞从一个状态转变到另一种状态,而是基于以下假设(Hypothesis):
- 单个样本通常包含多个不同发育阶段的细胞,细胞的状态在同一时间点上并不是完全同步的。
- 部分细胞处于发育早期,部分细胞处于发育晚期,因此我们可以根据它们的基因表达特征,推测出它们在发育或疾病进展中的相对顺序。
拟时序分析的基本流程
- 降维处理:首先,我们对细胞的基因表达数据进行降维(如 PCA、UMAP、t-SNE),并将细胞投射到低维空间(通常是二维)。
- 细胞排序:在降维后的空间中,我们可以根据细胞间的相似性,推测其在生物过程中所处的相对顺序。比如:
- T 细胞分化:从幼稚 T 细胞(Naïve T Cells) → 细胞毒性 T 细胞(Cytotoxic T Cells) → 耗竭 T 细胞(Exhausted T Cells)。
- 胚胎发育:从单细胞受精卵 → 两细胞期 → 四细胞期 → 囊胚期,再到更晚的发育阶段。
- 构建拟时序轨迹:根据推测的细胞顺序,构建一个从 0 到 100 的伪时间轴(Pseudotime),用于表示细胞的发育或分化进程。
- 基因动态变化分析:在拟时序轨迹上,分析哪些基因在 Pseudotime 0-100 之间逐渐上调或下调。这可以帮助我们识别:
- 在细胞分化过程中起关键作用的驱动基因。
- 可能与特定生物学功能相关的信号通路。
- 分叉分析(Branched Differentiation):在某些生物过程中,细胞可能向不同的方向分化。例如:
- 造血干细胞可以分化为髓系细胞(Myeloid Lineage)或淋巴系细胞(Lymphoid Lineage)。
- 胚胎细胞可能发育成不同的组织类型。
在拟时序分析中,我们可以识别这些分叉点,并研究不同分化路径上的基因表达变化及驱动因素。通过这种方式,我们能够更深入地解析细胞在不同生物学过程中所经历的动态变化,并发现新的细胞亚群或关键调控因子。
7. 转录调控分析
基因的 RNA 表达是转录的结果,而转录因子的活性决定了基因的转录水平。因此,我们可以根据基因的 RNA-Seq 表达数据,反向推测转录因子的结合水平及其调控活性。

8.细胞间通讯分析
细胞之间的通讯分析(Cell-Cell Communication Analysis)是一种基于配体-受体相互作用(Ligand-Receptor Interaction)的计算方法,它依赖于已知的数据库,识别不同细胞类型之间的信号传递关系。
长期以来,科学家们通过实验研究发现了大量的细胞因子(Cytokines)、趋化因子(Chemokines)、生长因子(Growth Factors)等分泌信号分子,它们可以作用于靶细胞,并通过特定的受体激活下游信号通路。例如,某些细胞可以分泌特定的细胞因子,而这些因子可以被另一类细胞表面的受体识别,从而触发特定的生物学效应。
在单细胞转录组数据中,我们可以通过 RNA-Seq 的表达情况来推测不同细胞群体之间的通讯强度。如果某个细胞类型高表达某种配体,而另一类细胞同时高表达其受体,则可以推测这两类细胞之间的相互作用较强。例如,在免疫微环境中,某些上皮细胞可能高表达炎症因子(如 IL-6),而免疫细胞上的 IL-6 受体表达水平也较高,那么我们可以推测这两种细胞之间存在较强的 IL-6 介导的信号传导。如果某个细胞高表达配体,但其靶细胞未表达相应的受体,那么这条信号通路的活性可能较低,甚至不存在。
单细胞技术的优势在于,它可以将不同的细胞类型进一步细分为多个亚群。例如,上皮细胞和 T 细胞都可以被拆分为多个亚类,这使得我们可以精确计算特定亚群之间的通讯关系。通过构建细胞通讯网络,我们可以揭示哪些信号通路在特定的细胞群体之间起主要作用。例如,在血管生成过程中,上皮细胞可能高表达 VEGF,而内皮细胞则高表达 VEGF 受体(VEGFR),这种配体-受体相互作用表明 VEGF 信号通路在上皮细胞与内皮细胞之间的通讯中起关键作用。而 T 细胞等免疫细胞通常不会表达 VEGFR,因此它们与 VEGF 相关的通讯可能较弱。
除此之外,单细胞通讯分析还可以帮助发现新的调控因子。例如,如果某类成纤维细胞(Fibroblast)被发现异常高表达 VEGF,那么它可能在血管生成过程中发挥了额外的作用,而这可能是过去未被发现的生物学现象。这种新发现可以成为研究新的生物学假设(Hypothesis)的基础,推动更深入的实验研究。
然而,细胞通讯分析也存在一定的局限性。它主要基于配体-受体相互作用数据库,因此只能推测蛋白水平的信号传导。如果某个信号通路涉及核内调控,例如某个基因的转录首先需要被激活,然后该基因编码的蛋白被翻译并分泌,最后进入另一个细胞内核中发挥作用,那么这种复杂的跨细胞调控机制是无法通过现有的单细胞通讯分析方法推测的。此外,一些特定的调控机制,例如长链非编码 RNA(LncRNA)或转录因子级联调控(如 MACC2A),同样无法被这类方法直接捕捉。因此,在进行单细胞通讯分析时,需要结合生物学背景知识,充分理解其优势与局限性,以便合理解读分析结果。

9.TCGA反卷积分析及其临床相关性
在单细胞数据分析的基础上,我们可以进一步结合临床数据、多组学数据,甚至已有的 bulk RNA-seq 数据,进行更深入的研究。其中,反卷积(Deconvolution)是一种常用的方法,它能够利用单细胞转录组数据(scRNA-seq)来推测 bulk RNA-seq 数据中不同细胞类型的比例,并进行关联分析。
在肿瘤研究中,我们通常会获得大量的 bulk RNA-seq 数据,同时也可能拥有患者的临床数据,如生存期、药物响应情况、分期等。通过反卷积方法,我们可以利用单细胞数据的基因表达特征,推算 bulk RNA-seq 数据中不同类型细胞(如免疫细胞、肿瘤细胞等)的相对比例。接着,我们可以将这些细胞比例与患者的生存、药物反应、临床分期等信息进行关联分析。例如,在不同的肿瘤分期中,我们可以比较某一类免疫细胞的比例变化,或者探讨特定细胞类型的丰度是否与患者的生存率相关。
除了肿瘤,反卷积方法在其他疾病研究中同样具有重要价值。例如,阿尔茨海默症(Alzheimer’s Disease, AD)或其他神经疾病研究中,我们可以利用患者的 bulk RNA-seq 数据,结合单细胞数据,推算不同细胞群体(如小胶质细胞、星形胶质细胞、神经元等)的相对比例,并分析它们在不同疾病状态下的变化。此外,如果研究涉及小鼠模型或其他疾病样本,我们也可以利用公共数据库中的 bulk RNA-seq 数据,并应用反卷积方法进行分析。
除了 bulk RNA-seq 数据,我们还可以整合全基因组关联研究(GWAS)和表达数量性状位点(eQTL)数据,以探索基因变异与细胞类型之间的关系。在 GWAS 研究中,我们通常会发现某些SNP(单核苷酸多态性)位点与疾病风险密切相关,但这些位点所影响的具体细胞类型往往不清楚。通过单细胞数据的整合分析,我们可以判断某个与疾病相关的基因变异主要影响哪一类特定细胞,进而揭示其可能的作用机制。例如,在非酒精性脂肪肝(NAFLD)研究中,许多 GWAS 研究发现了一些基因突变与脂肪肝风险相关,但当我们分析这些基因的表达模式时,可能会发现它们并不主要表达于肝细胞,而是更多地存在于库普弗细胞(Kupffer cells)或 T 细胞中。这表明,某些遗传变异可能并非直接通过肝细胞作用,而是通过影响免疫细胞的功能来调控疾病进程。
整合多组学数据(如单细胞数据、bulk RNA-seq、GWAS、eQTL、ATAC-seq 等)可以帮助我们从不同角度深入挖掘数据,发现新的生物学现象。例如,通过将ATAC-seq(开放染色质区域测序)与单细胞 RNA-seq 结合,我们可以探索特定细胞类型的基因调控机制;通过结合 GWAS 和 eQTL 数据,我们可以更好地理解遗传变异如何影响基因表达,并最终影响疾病发生。