kb_python 项目教程
1. 项目介绍
kb_python
是一个用于处理单细胞 RNA 测序数据的 Python 包。它封装了 kallisto
和 bustools
命令行工具,以统一多种处理工作流程。kb_python
由 Kyung Hoi (Joseph) Min 和 A. Sina Booeshaghi 在 Lior Pachter 的实验室开发。如果你在发表的研究中使用了 kb_python
,请引用相关文献。
2. 项目快速启动
安装
你可以通过 pip
安装最新版本的 kb_python
:
pip install kb-python
如果你想安装开发版本,可以使用以下命令:
pip install git+https://github.com/pachterlab/kb_python
使用示例
构建索引
首先,你需要为伪比对构建一个索引。以下命令将从基因组 FASTA 文件和 GTF 文件构建索引:
kb ref -i index.idx -g t2g.txt -f1 transcriptome.fa genome.fa.gz annotation.gtf.gz
伪比对和计数
接下来,使用构建的索引和测序读取文件生成计数矩阵:
kb count -i index.idx -g t2g.txt -o out/ -x 10xv3 read1.fastq.gz read2.fastq.gz
3. 应用案例和最佳实践
案例1:量化公开的单细胞 RNA 测序数据
pip install kb-python gget ffq
# 构建索引
kb ref -i index.idx -g t2g.txt -f1 transcriptome.fa $(gget ref --ftp -w dna.gtf homo_sapiens)
# 量化数据
kb count -i index.idx -g t2g.txt -x 10xv3 -o out $(ffq --ftp SRR10668798 | jq -r '.[].url' | tr '\n' ' ')
案例2:量化 10x v2 特征条形码数据
# 构建索引
kb ref -i index.idx -g f2g.txt -f1 features.fa --workflow kite feature_barcodes.txt
# 量化数据
kb count -i index.idx -g f2b.txt -x 10xv2 -o out/ --workflow kite --h5ad R1.fastq.gz R2.fastq.gz
4. 典型生态项目
kallisto
kallisto
是一个用于 RNA-seq 数据伪比对的工具,能够快速且准确地量化转录本丰度。
bustools
bustools
是一个用于处理单细胞 RNA-seq 数据的工具,能够高效地生成计数矩阵。
gget
gget
是一个命令行工具,用于从 Ensembl 下载基因组和注释文件。
ffq
ffq
是一个用于从 SRA 数据库下载测序数据的工具。
通过这些工具的组合使用,kb_python
能够高效地处理单细胞 RNA 测序数据,生成高质量的计数矩阵。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考