单细胞转录组 —— kb-python 原始数据处理
前言
kallisto|bustools 是一种用于预处理 scRNA-seq
数据的工作流程。
数据预处理步骤包括:
- 将
reads
与其来源细胞关联起来; - 根据唯一分子标识符(
UMI
)对reads
进行去重; - 从
reads
中生成基因或特征计数,以生成 细胞x基因 矩阵。
使用 kallisto|bustools 有以下几点优势
- 生成与 细胞x基因 或 细胞x转录本 等价的计数矩阵
- 执行
RNA
速率分析和snRNA-seq
分析 - 对
10x
、inDrops
和Dropseq
等多种技术的数据进行定量。 - 为新技术和方案定制工作流程。
- 处理特征条码数据,如
CITE-seq
、REAP-seq
、MULTI-seq
、Clicktags
和Perturb-seq
。 - 生成
QC
报告 - 速度飞快
使用
kb-python
是一个用于处理 scRNA
序列的 python
软件包,它封装了 kallisto|bustools 单细胞 RNA
分析流程。
可以使用 pip
安装
pip install kb-python
也可以使用 conda
安装
conda install -c bioconda kb-python
或者安装开发版
pip install git+https://github.com/pachterlab/kb_python
命令行输入 kb
,输出类似如下信息
usage: kb [-h] [--list] <CMD> ...
kb_python 0.28.2
positional arguments:
<CMD>
info Display package and citation information
compile Compile `kallisto` and `bustools` binaries from source
ref Build a kallisto index and transcript-to-gene mapping
count Generate count matrices from a set of single-cell FASTQ files
optional arguments:
-h, --help Show this help message and exit
--list Display list of supported single-cell technologies
主要包含 4
个子命令,我们主要使用后两个。
构建索引
可通过 ref
子命令,使用 kallisto
建立转录组索引。只需传入参考基因组和基因组注释文件即可。
重要参数如下
流程主要包含 4
种类型,默认是 standard
,RNA
速率分析用 nac
,kite
主要用于 Feature Barcode
测序,如 10x Feature Barcode
技术可以同时分析基因表达和免疫受体序列(BCR
和 TCR
)。
也可以使用 custom
模式,定制自己的参考基因组索引。
定量
重要参数如下