PSMC:从二倍体序列推断种群大小历史
项目介绍
PSMC(Pairwise Sequentially Markovian Coalescent)是一个用于从二倍体序列推断种群大小历史的软件包。该模型通过分析二倍体基因组的变异模式,推断出种群在不同历史时期的有效种群大小。PSMC模型在遗传学、进化生物学和人类学等领域具有广泛的应用前景。
项目技术分析
编译与运行
要编译PSMC的二进制文件,只需运行以下命令:
make; (cd utils; make)
编译完成后,可以通过以下命令尝试运行PSMC:
utils/fq2psmcfa -q20 diploid.fq.gz > diploid.psmcfa
psmc -N25 -t15 -r5 -p "4+25*2+4+6" -o diploid.psmc diploid.psmcfa
utils/psmc2history.pl diploid.psmc | utils/history2ms.pl > ms-cmd.sh
utils/psmc_plot.pl diploid diploid.psmc
其中,diploid.fq.gz
通常是单个人类个体的全基因组二倍体共识序列。可以通过以下命令生成:
samtools mpileup -C50 -uf ref.fa aln.bam | bcftools view -c - \
| vcfutils.pl vcf2fq -d 10 -D 100 | gzip > diploid.fq.gz
主要功能
fq2psmcfa
:将共识序列转换为类似fasta的格式,用于后续分析。psmc
:推断种群大小历史,通过-p
和-t
选项手动选择参数,避免过拟合。psmc2history.pl
和history2ms.pl
:生成模拟历史推断的ms命令行。psmc_plot.pl
:可视化PSMC结果。
附加功能
- 附录I:解释了如何对PSMC输出进行缩放,以便更直观地理解时间与种群大小的关系。
- 附录II:讨论了低覆盖率数据对PSMC结果的影响及校正方法。
项目及技术应用场景
PSMC在以下场景中具有广泛的应用:
- 遗传学研究:推断物种的种群历史,分析种群大小的变化趋势。
- 进化生物学:研究物种的进化历史,理解种群动态。
- 人类学:分析人类种群的历史变迁,揭示人类迁徙和演化的模式。
项目特点
- 高精度推断:PSMC模型通过精细的参数设置,能够高精度地推断种群大小历史。
- 灵活的输入格式:支持多种输入格式,包括dipcall输出和常规的二倍体共识序列。
- 强大的可视化工具:提供多种可视化工具,帮助用户直观理解推断结果。
- 低覆盖率校正:针对低覆盖率数据,提供校正方法,确保结果的可靠性。
结语
PSMC是一个功能强大且易于使用的工具,适用于多种生物学研究场景。无论你是遗传学家、进化生物学家还是人类学家,PSMC都能为你提供宝贵的种群历史信息。快来尝试PSMC,探索种群演化的奥秘吧!
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考