基于OmicVerse的Bulk RNA-seq数据细胞类型解卷积与模拟单细胞生成

原创

已于 2025-03-19 18:31:34 修改 · 1.3k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #python #深度学习

于 2025-03-19 18:24:50 首次发布

🔬 基于OmicVerse的Bulk RNA-seq数据细胞类型解卷积与模拟单细胞生成

1. 数据准备与依赖库

import omicverse as ov
import scanpy as sc
import pandas as pd

核心库说明：

OmicVerse：专注于多组学数据整合，其tl.deconvolution模块支持基于单细胞参考的Bulk数据细胞类型分解
Scanpy：单细胞数据处理神器，用于数据标准化、质控和整合
Pandas：用于表格数据读取与处理

2. 数据读取与格式标准化

2.1 Bulk RNA-seq数据加载

bulk_data = pd.read_csv('bulk_rna_seq.csv', index_col=0)

数据格式要求：
CSV文件中行名为基因名，列名为样本名，数值为基因表达量（如原始计数或TPM）
注意事项：
若数据为基因-样本矩阵，需通过.T转置为AnnData要求的样本-基因格式

2.2 单细胞参考数据加载

single_cell_ref = sc.read_10x_mtx(
    'single_cell_data/filtered_gene_bc_matrices/hg19/',
    var_names='gene_symbols', cache=True
)
single_cell_ref.var_names_make_unique()  # 确保基因名唯一

数据来源：
10x Genomics标准输出的过滤后矩阵（filtered_gene_bc_matrices）
格式说明：
包含3个文件：matrix.mtx（表达矩阵）、barcodes.tsv（细胞 barcode）、features.tsv（基因信息）

3. 数据预处理

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ljugg

关注关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

单细胞RNA-seq分析

努力努力再努力的博客

01-15

3万+

一、单细胞single cell RNA-seq简介 1、Bulk RNA-seq(大量RNA-seq) Measures the average expression level for each gene across a large population of input cells Useful for quantifying expression signatures from ens...

单细胞RNA-seq简介

mengpf的博客

11-05

1180

基于标签的协议的一个缺点是，仅限于转录本的一端，它降低了我们将读数与转录本明确对齐的能力，并且难以区分不同的亚型（Archer et al. 2016）。提供最高的通量，是当今最流行的方法。，例如 Fluidigm 的 C1，提供了一个更加集成的系统，用于捕获细胞和进行文库制备所需的反应。例如，发现新的或稀有的细胞类型，识别健康/患病组织之间的差异细胞组成或了解发育过程中的细胞分化。然而，使用bulk RNA-seq，我们只能估计细胞群中每个基因的平均表达水平，而不考虑该样本中各个细胞的基因表达的异质性。

参与评论您还未登录，请先登录后发表或查看评论

bulk-RNA-seq-lymphangio:淋巴管内皮细胞的RNA seq数据分析（用肿瘤分泌物组或VEGF-C处理）

04-12

大量RNA序列淋巴球淋巴管内皮细胞的RNA seq数据分析（用肿瘤分泌物组或VEGF-C处理）命令行的详细列表，用于分析从原始计数到差异表达分析（基于edgeR程序包）和基因集富集分析（使用fgsea和clusterProfiler）的大量RNA测序数据。还包括用于显示多个关联的热图的代码（heatmap.2和pheatmap程序包）

Bulk RNA-seq（类器官）

weixin_73362123的博客

10-07

1755

这种方法中提供了整个细胞群体的平均表达谱，也就是说基因表达水平代表的是整个细胞群体的平均水平，这对于在不同组织、条件或时间点之间鉴定差异表达基因非常有用。将细胞单个分离并提取其RNA。选择合适的测序样本、提取总RNA、富集非核糖体RNA、逆转录RNA为cDNA、构建片段文库、在高通量测序平台上进行测序、产生长度为30-300碱基对的单端或双末端读数、读数对比与组装、下游分析。Bulk RNA-seq无法区分个体细胞之间的基因表达差异，并且可能掩盖了罕见细胞群体、微小的转录差异或基因表达随时间变化的差异。

bulk RNA-Seq（9）富集分析

生物信息学方面的专题分享

02-06

668

这一期我们来讲讲富集分析。

BayesPrism(贝叶斯棱镜法)可提取单细胞数据去卷积后将信息映射至bulkRNA数据

zfyyzhys的博客

07-15

3921

贝叶斯棱镜法作为一种工具可以根据scRNA数据(作为先验模型)去推断bulkRNA数据中肿瘤微环境组成(不同免疫细胞组分/不同细胞群)和基因表达情况。

《Nature Biotechnology》：稳定的空转细胞解卷积方法—RCTD

weixin_47195452的博客

05-07

8386

这是一篇2022年发表在《

MuRD：多鲁棒单细胞RNA测序数据反褶积方法

例如，在分析某一组织的 bulk RNA-seq 数据时，研究人员往往拥有来自其他研究项目的单细胞RNA-seq（scRNA-seq）数据集，这些数据可能来自相同或相似的组织类型，但实验条件、测序平台或人群背景存在差异。传统的基于...

Bulk-RNA-seq流程——从测序数据到count文件(AGSdata)

热门推荐

weixin_63884580的博客

02-11

1万+

RNA-seq通用流程（从原始测序数据到count文件）：环境安装，软件安装，数据质控，数据过滤，序列比对，bam文件，count

scRNASeq-bulkRNASeq:单细胞和大量RNASeq分析脚本

05-12

单细胞和大量RNASeq分析带有Seurat，Monocle和其他R包的示例分析脚本，用于规范化，缩放，降维技术（tSNE，PCA），差异基因表达和可视化。对于来自10X Genomics Chromium平台的scRNASeq，我使用了cellranger多路分解，对于ddSeq平台，我使用了Illumina BaseSpace自动多路分解。然后，这两个程序都运行自定义的STAR对齐方式。 Seurat是我选择的单细胞数据包。对于批量RNASeq，我使用手动STAR-htseq-DESeq2管道，但可能会切换为limma而不是DESeq2。出于可视化目的，我使用R包的内置函数或使用自定义ggplot2以及偶尔使用的基本R图形函数。

bulk RNA-Seq （3）表达定量

生物信息学方面的专题分享

02-05

1089

上一篇推文讲了bulk RNA-Seq 的比对到参考基因组部分，接下来就是基因表达定量了。计算表达定量可以用StringTie、Htseq-cout、featureCounts，这里推荐使用featureCounts。featureCounts 是Rsubread 软件包里的一个命令，所以安装R版本Rsubread的即可。这里使用了一个脚本，在运行featureCounts 的同时，计算FPKM、TPM。

【bulk RNA-seq】DESeq2差异分析硬核

芜湖熊天霸的博客

05-20

2630

心血来潮写了个bulk RNA-seq的代码，该有的基本都有了。省去了路径和具体的基因。以后更新一下用公共数据跑出来的图吧。最近比较忙。包非原创，代码是原创。转载或引用请注明出处或与我联系。 ################################ ## 导入需要用到的R package以及自定义函数 ################################ library(DESeq2) #差异分析的包 library(clusterProfiler) #基因名转换&GO富集分

bulk RNA-Seq （5）差异分析

生物信息学方面的专题分享

02-05

1246

差异表达分析用于比较两个样本中同一个基因的的表达量是否存在差异。用到的统计方法是假设检验，所以样本需要重复。常用的软件包括DESeq2、edgeR，这里推荐使用trinity软件包的一个程序run_DE_analysis.pl，安装方法：conda install trinity

Bulk RNA-seq上下游分析

weixin_45694863的博客

11-17

3639

RNA-seq上游分析

bulk-RNA seq测序数据分析流程

zengwanqin的博客

01-05

4864

bulk-RNA seq测序数据分析流程

bulkRNA-seq主流数据类型，处理方式与用途。