【生信笔记】VCF文件处理

本文详细介绍了VCFtools和BCFtools的常用命令行操作,包括个体保留、位置筛选、区域指定、VCF文件合并、按染色体拆分、差异计算、FST计算等功能,以及BCFtools的合并和染色体拼接操作,为生物信息学研究提供实用的VCF文件处理技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 一、VCFtools使用

#keep individuals
$ vcftools \
    --gzvcf x.vcf.gz \
    --keep id.txt \
    --recode \
    --recode-INFO-all \
    --stdout | bgzip -c > y.vcf.gz 
#remove: --remove

#keep positions
    --positions pos.list

#specify region
    --chr 1 
    --from-bp a 
    --to-bp b

#merge vcfs
$ vcf-merge x.vcf.gz y.vcf.gz | bgzip -c > out.vcf.gz

#split by chromosome
for i in {1..22};
do
    vcftools \
    --gzvcf x.vcf.gz \
    --chr ${i} \
    --recode \
    --recode-INFO-all \
    --stdout | bgzip -c > x.chr${i}.vcf.gz \
done

#difference
$ vcftools --gzvcf x.vcf.gz --gzdiff y.vcf.gz --diff-site --out diff

#fst
$ vcftools --gzvcf x.vcf.gz --weir-fst-pop a.list --weir-fst-pop b.list --out a_vs_b #optional: -fst-window-size, --fst-window-step

官方文档icon-default.png?t=O83Ahttps://vcftools.github.io/index.html

二、BCFtools使用

#merge
$ bcftools merge -O z -o out.vcf.gz --threads 20 x.vcf.gz y.vcf.gz

#concat chromosome
$ bcftools concat -f file.list -o out.vcf.gz

官方文档icon-default.png?t=O83Ahttp://samtools.github.io/bcftools/bcftools.html

三、Shapeit-phase

for i in {1..22};
do
    shapeit \
    --input-vcf input.chr${i}.vcf.gz \
    -M refs/genetic_map_chr${i}_combined_b37.txt \
    -O shapeit_chr${i}_phased \
    --window 0.5 \
    -T 20 \
done


for i in {1..22};
do
    shapeit \
    -convert \
    --input-haps shapeit_chr${i}_phased \
    --output-vcf output.shapeit_chr${i}_phased.vcf \
    -T 20 \
done

官方文档icon-default.png?t=O83Ahttps://mathgen.stats.ox.ac.uk/genetics_software/shapeit/shapeit.html 

四、Plink过滤

$ plink \
    --vcf sample.vcf.gz \
    --geno 0.1 \
    --maf 0.05 \
    --threads 10 \
    --const-fid A \
    --recode vcf \
    --out sample.removed.qc

$ plink \
    --vcf sample.removed.qc.vcf \
    --indep-pairwise 200 25 0.5 \
    --threads 10 \
    --const-fid A \
    --out sample.removed.qc

$ plink \
    --vcf sample.removed.qc.vcf \
    --extract sample.removed.qc.prune.in \
    --threads 10 \
    --const-fid A \
    --recode vcf \
    --out sample.removed.qc.pruned

官方文档icon-default.png?t=O83Ahttps://www.cog-genomics.org/plink2/ 

五、GCTA-PCA

$ plink --vcf sample.vcf --double-id --out step1
$ gcta --bfile step1 --make-grm --autosome --out step2
$ gcta --grm step2 --pca 3 --out pca_out

官方文档icon-default.png?t=O83Ahttps://yanglab.westlake.edu.cn/software/gcta/#Overview

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值