control-free CNV小记

本文探讨了CNV(拷贝数目变异)在癌症样本中的过滤与分析,强调了在去除正常人体内germline CNV以获取somatic CNV的重要性。文章提到了Control-FREEC软件在分析过程中的参数设置,如breakPointThreshold和minCNAlength,并讨论了BAF在CNV识别中的作用。此外,还提及了基于不同比对和覆盖度的正常化问题,以及使用pileup文件和BED文件进行CNV注释的细节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对正常人来说,基因组应该是二倍体的,所以凡是测到非2倍体的地方都是CNV。但是CNV本身就是人群遗传物质多样性的体现,所以对癌症样本来说,是需要过滤掉正常人体内的germline的CNV,得到somatic的CNV。

CNV(copy-numbervariant)是指拷贝数目变异,也称拷贝数目多态性(copy-number polymorphism,CNP),是一个大小介于1kb至3MB的DNA片段的变异,在人类及动植物基因组中广泛分布,其覆盖的核苷酸总数大大超过单核苷酸多态性(SNP)的总数,极大地丰富了基因组遗传变异的多样性。按照CNV是否致病可分为致病性CNV、非致病性CNV和不明临床意义CNV。

[general], [sample], [control], [BAF] and [target].

B-Allele Frequency. The B-Allele Frequency is a normalized measure of the allelic intensity ratio of two alleles (A and B), such that a BAF of 1 or 0 indicates the complete absence of one of the two alleles (e.g. AA or BB), and a BAF of 0.5 indicates the equal presence of both alleles (e.g. AB).
if you do not intend to calculate BAF profiles and call genotypes, or if you are not running the program on targeted data,后三个参数可以不设置。
参数列表

somatic-CNV/hg38_genomic/hg38.genomic.fa.fai文件处理,自己创建的和服务器上的每条染色体长度是一致的. chrLenFile:file with chromosome lengths; chromosomes that are not in this list won’t be considered by Control-FREEC!

Error: your BED file with coordinates of targeted regions may contain duplicates
Check chromosome 1
Exit Control-FREEC: before reruning sort the BED file with coordinates of the targeted regions and REMOVE DUPLICATED REGIONS

sort -k1,1V -k2,2n -k3,3n -u target_interval.bed > sort.bed

#内部源码分析报错原因
 int howMuchToDelete = nextStart - start;
                    if (howMuchToDelete<0) {
                        cerr << "Error: your BED file with coordinates of targeted regions does not seem to be sorted\nCheck chromosome "<<chromosome_<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值