Monopogen 开源项目最佳实践教程
Monopogen SNV calling from single cell sequencing 项目地址: https://gitcode.com/gh_mirrors/mo/Monopogen
1. 项目介绍
Monopogen 是一个用于单细胞测序数据中的单核苷酸变异(SNV)调用分析的开源分析包。该项目由 Ken chen 的实验室开发并维护,适用于由单细胞 RNA 10x 5'、10x 3'、单细胞 ATAC-seq 技术以及 scDNA-seq 等生成的测序数据。Monopogen 包含三个模块:数据预处理、杂合子 SNV 调用和体细胞 SNV 调用。其输出结果可以用于单细胞样本的族群鉴定、全基因组关联研究以及体细胞 SNV 的研究。
2. 项目快速启动
安装依赖
在开始之前,请确保安装以下依赖:
- Python (版本 >= 3.73)
- Java (Open JDK >= 1.8.0)
- R (版本 >= 4.0.0)
- Pandas (版本 >= 1.2.3)
- PySam (版本 >= 0.16.0.1)
- NumPy (版本 >= 1.19.5)
- SciPy (版本 >= 1.6.3)
- Pillow (版本 >= 8.2.0)
- data.table (R 包;版本 >= 1.14.8)
- e1071 (R 包;版本 1.7-13)
- ggplot2
安装 Monopogen:
git clone https://github.com/KChen-lab/Monopogen.git
cd Monopogen
pip install -e .
数据预处理
数据预处理是 SNV 调用的第一步。以下是一个数据预处理的示例命令:
path="XXX/Monopogen" # 替换为 Monopogen 的下载路径
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:${path}/apps
python ${path}/src/Monopogen.py preProcess -b bam.lst -o out -a ${path}/apps
bam.lst
是包含 BAM 文件路径的列表文件。
杂合子 SNV 调用
接下来,您可以进行杂合子 SNV 调用。以下是一个示例命令:
python ${path}/src/Monopogen.py germline -r chr20:0-2Mb -o out -g chr20_2Mb.hg38.fa -p CCDG_14151_B01_GRM_WGS_2020-08-05_chr20.filtered.shapeit2-duohmm-phased.vcf.gz
这里 -r
指定了基因组区域,-g
是参考基因组文件,-p
是用于 Imputation 的参考面板。
3. 应用案例和最佳实践
数据质控
在单细胞测序数据中,质控是非常重要的一步。确保使用经过质量控制的 BAM 文件进行后续分析。
变异调用
在变异调用过程中,使用合适的参数设置和参考面板是非常重要的。建议首先进行数据预处理,然后利用参考面板进行杂合子 SNV 调用,最后进行体细胞 SNV 调用。
结果解读
分析完成后,需要仔细解读结果。可以结合族群鉴定和全基因组关联研究结果,对体细胞 SNV 进行进一步研究。
4. 典型生态项目
Monopogen 可以与其他单细胞测序分析工具一起使用,如 CellRanger、ScanPy 等,形成一个完整的单细胞分析生态系统。此外,它还可以与各种生物信息学工具集成,如变异注释工具(如 ANNOVAR)和基因组可视化工具(如 IGV),以帮助研究人员更好地理解其分析结果。
Monopogen SNV calling from single cell sequencing 项目地址: https://gitcode.com/gh_mirrors/mo/Monopogen
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考