pySCENIC 使用教程

pySCENIC 使用教程

pySCENIC pySCENIC is a lightning-fast python implementation of the SCENIC pipeline (Single-Cell rEgulatory Network Inference and Clustering) which enables biologists to infer transcription factors, gene regulatory networks and cell types from single-cell RNA-seq data. pySCENIC 项目地址: https://gitcode.com/gh_mirrors/py/pySCENIC

1. 项目介绍

pySCENIC 是一个高效的 Python 实现,用于 SCENIC(Single-Cell rEgulatory Network Inference and Clustering)管道。该工具允许生物学家从单细胞 RNA-seq 数据中推断转录因子、基因调控网络和细胞类型。SCENIC 的原始工作是用 R 语言完成的,并在 Nature Methods 上发表了相关成果。pySCENIC 提供了相同的功能,并且可以通过多核和多节点集群进行扩展,以快速分析成千上万的细胞。

2. 项目快速启动

首先,确保您的系统中已安装了必要的依赖项。以下是快速启动 pySCENIC 的步骤:

# 克隆项目仓库
git clone https://github.com/aertslab/pySCENIC.git

# 进入项目目录
cd pySCENIC

# 安装依赖
pip install -r requirements.txt

# 运行示例
python examples/run_scenic.py

3. 应用案例和最佳实践

以下是一些使用 pySCENIC 的案例和最佳实践:

  • 数据准备:确保您的单细胞 RNA-seq 数据已经过预处理,包括归一化和去除批次效应。
  • 转录因子推断:使用 arboreto 包中的方法推断转录因子和它们的靶基因。
  • 网络构建:利用 pySCENIC 构建基因调控网络,并使用 dask 进行分布式计算以提升性能。
  • 细胞聚类:根据发现的调控网络活动对细胞进行分化和聚类。

4. 典型生态项目

pySCENIC 是 SCENIC 套件中的一部分,该套件提供了多种工具来支持单细胞数据分析和基因网络推断。以下是一些与之相关的典型生态项目:

  • arboreto:用于基因调控网络推断的 Python 包。
  • ctxcore:用于 cisTarget 数据库操作的 Python 包。
  • loompy:用于处理稀疏数据格式的 Python 包。

通过整合这些工具,研究人员可以更深入地理解单细胞数据中的基因调控机制。

pySCENIC pySCENIC is a lightning-fast python implementation of the SCENIC pipeline (Single-Cell rEgulatory Network Inference and Clustering) which enables biologists to infer transcription factors, gene regulatory networks and cell types from single-cell RNA-seq data. pySCENIC 项目地址: https://gitcode.com/gh_mirrors/py/pySCENIC

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

### pyscenic 数据库的使用方法与示例 `pyscenic` 是一种用于分析单细胞 RNA 测序数据并推断调控网络的强大工具。它依赖于多种数据库来构建共表达模块和调节子(regulons)。以下是 `pyscenic` 中使用的常见数据库及其用途: #### 1. 调节子数据库 这些数据库包含了已知转录因子与其靶基因之间的关系,通常来源于实验验证或计算预测。 - **cisTarget databases**: cisTarget 数据库提供了转录因子结合位点的信息以及它们可能影响的目标基因列表。这是由 SCENIC 和 PySCENIC 工具广泛使用的资源之一。可以通过以下方式下载适合特定物种的 cisTarget 数据库: ```bash wget https://resources.aertslab.org/cistarget/hgnc_v20.08_hocomoco_human_motifs_upstream5kb_tfbem.txt.gz gunzip hgnc_v20.08_hocomoco_human_motifs_upstream5kb_tfbem.txt.gz ``` - **Motif Annotations**: 动机注释文件描述了不同转录因子如何识别 DNA 上的具体序列模式。PySCENIC 支持从多个来源获取动机注释,例如 HOCOMOCO[^2]。 #### 2. 表达矩阵预处理 为了运行 PySCENIC 的核心功能 AUCell,需要准备输入 Loom 文件格式的数据集。这一步骤涉及将原始计数转换为标准化形式,并保存到 `.loom` 文件中以便后续操作。 ```python import loompy from scipy.sparse import csr_matrix import numpy as np # 假设我们有一个稀疏矩阵表示基因表达水平 expr_mat = csr_matrix(np.random.rand(100, 50)) # 随机生成一个例子 genes = ["Gene_" + str(i) for i in range(expr_mat.shape[1])] cells = ["Cell_" + str(j) for j in range(expr_mat.shape[0])] # 创建 .loom 文件 loom_file_path = 'sample.loom' loompy.create(loom_file_path, layers={"": expr_mat}, row_attrs={"Gene": genes}, col_attrs={"CellID": cells}) ``` #### 3. 执行 PySCENIC 分析流程 下面是一个完整的命令行脚本展示如何利用上述提到的各种组件完成一次标准的 PySCENIC 分析过程: ```bash # Step 1: GRN Inference (Generating Co-expression Networks and Modules) pyscenic grn \ sample.loom \ --output regulons.json \ --num_workers 4 # Step 2: Context-Specific Regulon Enrichment Analysis pyscenic ctx \ regulons.json \ /path/to/motif_annotations.h5 \ --annotations_fname /path/to/gene_sets.gmt \ --expression_mtx_fname sample.loom \ --mode "dask_multiprocessing" \ --output enriched_regulons.json \ --num_workers 4 # Step 3: Scoring Cells Based On Their Activity Towards Each Regulon pyscenic aucell \ sample.loom \ enriched_regulons.json \ --output sample_AUCell_scores.loom \ --num_workers 4 ``` 以上步骤涵盖了从建立基因调控网络到评估每个单元格对于各个调节子活性得分的整体工作流。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

宗念耘Warlike

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值