Paragraph 项目使用教程
1. 项目介绍
Paragraph 是一个用于结构变异(Structural Variations, SVs)的图对齐工具集。它旨在通过提供一个准确的短读序列数据结构变异基因分型工具,来促进全基因组测序数据的分析。Paragraph 支持多种结构变异类型,包括删除、插入、重复和倒位等。
2. 项目快速启动
安装
首先,确保系统满足以下要求:
- Python 3.x
- CMake
- HTSlib
然后,按照以下步骤进行安装:
git clone https://github.com/Illumina/paragraph.git
cd paragraph
mkdir build
cd build
cmake ..
make
运行示例
安装完成后,可以通过以下命令运行一个简单的基因分型示例:
python3 bin/multigrmpy.py -i share/test-data/round-trip-genotyping/candidates.vcf \
-m share/test-data/round-trip-genotyping/samples.txt \
-r share/test-data/round-trip-genotyping/dummy.fa \
-o test
该命令将生成一个包含基因分型结果的输出文件夹 test
。
3. 应用案例和最佳实践
应用案例
Paragraph 可以用于多种结构变异的基因分型,例如:
- 删除(Deletion):通过
<DEL>
符号表示,需要在 VCF 文件的 INFO 字段中包含END
键。 - 插入(Insertion):通过
<INS>
符号表示,需要在 INFO 字段中包含插入序列的键(默认是SEQ
)。 - 重复(Duplication):通过
<DUP>
符号表示,需要在 INFO 字段中包含END
键。 - 倒位(Inversion):通过
<INV>
符号表示,需要在 INFO 字段中包含END
键。
最佳实践
- 样本清单(Sample Manifest):确保样本清单是制表符分隔的,并且包含每个样本的唯一 ID 和 BAM/CRAM 文件路径。
- 运行时间优化:对于低复杂度区域或异常读堆叠区域,建议手动设置
-M
选项(最大允许读取计数)以跳过这些高深度区域。
4. 典型生态项目
Paragraph 可以与其他基因组分析工具集成,例如:
- GATK:用于变异检测和基因分型。
- Samtools:用于处理 BAM/CRAM 文件。
- BCFTools:用于合并和处理 VCF 文件。
通过这些工具的集成,Paragraph 可以构建一个完整的基因组分析流程,从数据预处理到结构变异的检测和基因分型。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考