Variant Call Format,可以用来表示单核苷酸多态性(SNP)、插入缺失(InDel,也就是短片段的插入与缺失)、结构变异(SV: Structural Variant,也就是大片段的插入与缺失) 、拷贝数量变异(CNV:Copy Number Variant)【CNV:比如一个基因在染色体的一条染色单体上的数目为1,但是在染色体复制过程中,复制结束后该基因在染色单体数目由1变成了2或者n。尤其在人类基因组中存在大量大于1 kb但小于3 Mb的DNA片段多态。它发生的频率远远高于染色体结构变异,并且整个基因组中覆盖的核苷酸总数大大超过SNP的总数】
基因组上的变异主要有单个碱基的变异(转换、颠换、插入、缺失)以及染色体水平的变异(插入、缺失、易位、倒位)。这些表现在基因组检测上就是:SNP、InDel、SV、Corpangene(插入缺失发生在基因水平)、CNV(发生在串联重复区的插入与缺失)
自发突变/诱发突变。DNA复制过程中由于DNA聚合酶产生错误、DNA物理损伤、转座等,但这些错误和损伤大多会被自身的修复系统修复。
- 碱基能够以互变异构体的不同形式存在【A-T配对变为GC的过程】

- InDel:碱基有时从核苷酸移去,留下一个叫做脱嘌呤或者脱嘧啶的缺口,进行
下一轮复制时不能够正常配对。胞嘧啶自然脱氨基形成尿嘧啶,因为尿嘧啶并非DNA的碱基所以被DNA自身的修复系统识别并清除,留下一个空位 - 转座子:随机插入到基因组,就相当于基因组上一个位点被复制/剪切后粘贴。当有多个这种序列结构时,他们之间就是同源的,因此就会导致同源重组【同源重组:非姐妹染色单体(sister chromatin) 之间或同一染色体上含有同源序列的DNA分子之间或分子之内的重新组合,进而引起缺失、重复、倒位等】
1、以##开头的头文件信息
##fileformat=VCFv4.2
##FILTER=<ID=LowQual,Description=“Low quality”>
##FORMAT=<ID=AD,Number=.,Type=Integer,Description=“Allelic depths for the ref and alt alleles in the order listed”>
##FORMAT=<ID=DP,Number=1,Type=Integer,Description=“Approximate read depth (reads with MQ=255 or with bad mates are filtered)”>
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description=“Genotype Quality”>
##FORMAT=<ID=GT,Number=1,Type=String,Description=“Genotype”>
##FORMAT=<ID=PL,Number=G,Type=Integer,Description=“Normalized, Phred-scaled likelih

最低0.47元/天 解锁文章
439

被折叠的 条评论
为什么被折叠?



