1. ichorCNA简介
ichorCNA是一种用于估计来自超低测序深度的全基因组测序(ULP-WGS,0.1x覆盖率)的cfDNA中肿瘤分数的工具。ichorCNA使用概率模型,应用隐马尔可夫模型(HMM),以同时分割基因组,预测大范围的拷贝数变化,并估计超低深度全基因组测序样本的肿瘤分数。ichorCNA针对样品的超低深度(~0.1x)测序进行了优化,并且已经使用患者和健康供体cfDNA样品进行了基准测试。
ichorCNA分析工作流包括2个任务:
(1)GC含量偏倚校正(使用HMM copy),从ULP-WGS计算reads覆盖率,数据校正和标准化;
(2)CNA预测和cfDNA的肿瘤分数的估计。
2. 软件安装
########## 推荐安装 #########
# R包安装,软件是否升级,选择3: None
install.packages("devtools")
devtools::install_github("broadinstitute/ichorCNA")
########## 手动安装(R≥3.6.0) #########
git clone git@github.com:broadinstitute/ichorCNA.git
install.packages("plyr")
# 安装依赖包
BiocManager::install("HMMcopy")
BiocManager::install("GenomeInfoDb")
BiocManager::install("GenomicRanges")
# SHELL
R CMD INSTALL ichorCNA
3. 软件用法
ichorCNA可用于告知肿瘤来源的DNA的存在或不存在,并指导进行全外显子组或更深的全基因组测序的决定。此外,肿瘤分数的定量估计可用于校准期望的测序深度,以达到用于鉴定游离DNA中的突变的统计。
教程: https://github.com/broadinstitute/ichorCNA/wiki
3.1 生成读取计数文件
使用HMMcopy套件中的readCounter
生成读取计数覆盖率信息;从ULP-WGS BAM创建WIG文件,使用HMMcopy的readCounter
工具。 下面示例将创建跨所有染色体具有1 Mb箱的WIG文件,并且仅包括具有大于20的比对质量的reasd。
# BAM索引
samtools index tumor.bam
# raeds计数
/HMMcopy/bin/readCounter --window 1000000 --quality 20 \
--chromosome "1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,X,Y" \
tumor.bam > tumor.wig
3.2 CNV分析和肿瘤分数的预测
使用ichorCNA R软件包的拷贝数分析和肿瘤分数的预测,runIchorCNA.R
R脚本位于ichorCNA/scripts/
目录中。
Rscript /ichorCNA/scripts/runIchorCNA.R \
--id tumor_sample \
--WIG tumor.wig \
--ploidy "c(2,3)" \
--normal "c(0.5,0.6,0.7,0.8,0.9)" \
--maxCN 5 \
--gcWig /ichorCNA/inst/extdata/gc_hg19_1000kb.wig \ # GC含量wig文件
--mapWig /ichorCNA/inst/extdata/map_hg19_1000kb.wig \ # 比对分苏的wig文件
-centromere /ichorCNA/inst/extdata/GRCh37.p13_centromere_UCSC-gapTable.txt \ # 包含着丝粒位置的文件
--normalPanel /ichorCNA/inst/extdata/HD_ULP_PoN_1Mb_median_normAutosome_mapScoreFiltered_median.rds \ # normal面板的中值矫正深度
--includeHOMD False \
--chrs "c(1:22, \"X\")" \ # 指定分析的染色体
--chrTrain "c(1:22)" \ # 指定用于估计参数的染色体
--estimateNormal True \
--estimatePloidy True \
--estimateScPrevalence True \
--scStates "c(1,3)" \
--txnE 0.9999 \
--txnStrength 10000 \
--outDir ./ # 输出目录
3.3 创建自定义的参考面板(可选)
https://github.com/broadinstitute/ichorCNA/wiki/Create-Panel-of-Normals
ichorCNA 可以在没有任何参考面板的情况下运行。作者提供了一个带有 ichorCNA 的正常组 (PoN),但使用与你的癌症患者 cfDNA 样本类似的处理和测序的样本生成你自己的样本可能会降低噪音并提高准确性。这些数据有助于进一步标准化癌症患者的 cfDNA,以纠正由文库构建、测序平台和 cfDNA 特异性伪影引起的系统性偏差。
3.4 低肿瘤含量样本(早期疾病)的参数优化
对于预期肿瘤分数低于 5% 的样品,修改默认设置以改善参数估计可能会有所帮助。对于这些类型的样品,建议对更高的覆盖度 (> 1-5x) 进行测序。对于预期肿瘤分数低于 ~0.5% 的样本,我们建议使用标准深度的全基因组测序(例如 > 20 倍)。
3.4.1 初始化肿瘤分数参数
将非肿瘤(1 减去肿瘤分数)初始化为预期值,例如 5%、1%、0.5%、0.1%。ichorCNA 仍将估计肿瘤分数,但拥有这些初始起始值可以帮助 EM 步骤找到更好的全局最优值。
--normal "c(0.95, 0.99, 0.995, 0.999)"
3.4.2 将初始倍性设置为二倍体
对于低肿瘤分数病例,很难预测倍性值。
--ploidy "c(2)"
3.4.3 减少拷贝数状态的数量
减少状态空间将有助于降低复杂性。如果您从先前的样本(例如肿瘤活检)中知道存在较大的高水平拷贝数事件,则可以将其设置为 4。
--maxCN 3
3.4.4 不考虑亚克隆拷贝数事件
对于低肿瘤分数,亚克隆事件很难检测到,这些我们可以关闭。
--estimateScPrevalence FALSE --scStates "c()"
3.4.5 仅训练和分析常染色体
在分析和训练中排除 chrX 以降低复杂性。
--chrs "c(1:22)" --chrTrain "c(1:22)"
3.5 snakemake管道
https://github.com/broadinstitute/ichorCNA/wiki/SnakeMake-pipeline-for-ichorCNA
此工作流将从 BAM 文件开始运行 ichorCNA 管道并生成 ichorCNA 输出。
4 主要输出文件
<sampleID>.seg : 由 Viterbi 算法调用的 Segment。格式与 IGV 兼容。
<sampleID>.seg.txt: 与 <sampleID>.seg 相同,但还包括节段的亚克隆状态(0 = 克隆,1 = 亚克隆)。格式与 IGV 不兼容。
<sampleID>.cna.seg: 每个 bin/窗口的估计拷贝数、日志比率和子克隆状态。
<sampleID>.correctedDepth.txt: 校正 GC 和可映射性偏差后每个 bin/window 的 Log2 比率。
<sampleID>.RData: ichorCNA 完成后保存的 R 图像。将包括所有解决方案的结果。
<sampleID>/<sampleID>_CNA_chr#.pdf: 每条染色体的拷贝数图。
<sampleID>/<sampleID>_bias.pdf: 说明 GC 和可映射性偏差校正之前/之后的数据的图表。
<sampleID>/<sampleID>_correct.pdf:GC 和可映射性偏差校正之前/之后的全基因组数据图。
<sampleID>/<sampleID>_genomeWide_n##-p#.pdf:用 n 和 p 初始化的溶液的估计拷贝数、肿瘤分数和倍性注释的数据全基因组图。p=肿瘤倍性
<sampleID>/<sampleID>_genomeWide.pdf:全基因组数据图,注释了估计的拷贝数、肿瘤分数和倍性,以获得最佳解决方案。
<sampleID>/<sampleID>_tpdf.pdf:使用来自最优解的收敛参数绘制每个拷贝数状态的 students-t 分布图。
Tumor Fraction 肿瘤分数,肿瘤来源的DNA的估计分数。相当于大量肿瘤分析中的纯度。
Tumor Ploidy 肿瘤倍性,肿瘤来源基因组的平均拷贝数。总体样本倍性为 2 * (1 - tumor.fraction) + tumor.fraction * tumor.ploidy。
参考文献:
Adalsteinsson, Ha, Freeman, et al. Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors. (2017) Nature Communications Nov 6;8(1):1324. doi: 10.1038/s41467-017-00965-y
生信软件文章推荐
生信软件1 - 测序下机文件比对结果可视化工具 visNano
生信软件3 - mapping比对bam文件质量评估工具 qualimap
生信软件4 - 拷贝数变异CNV分析软件 WisecondorX
生信软件7 - 多线程并行运行Linux效率工具Parallel
生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计
生信软件9 - 多公共数据库数据下载软件Kingfisher
生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa
生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV
生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )
生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计
生信软件14 - bcftools提取和注释VCF文件关键信息
生信软件15 - 生信NGS数据分析强大的工具集ngs-bits
生信软件17 - 基于fasta文件的捕获探针设计工具catch
生信软件18 - 基于docker部署Web版 Visual Studio Code
生信软件20 - seqkit+awk+sed+grep高级用法技巧合辑
生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump
生信软件22 - 测序数据5‘和3‘端reads修剪工具sickle
生信软件23 - Samtools和GATK去除PCR重复方法汇总
生信软件24 - 查询物种分类学信息和下载基因组TaxonKit和ncbi-genome-download
生信软件26 - BWA-MEM比对算法性能更好的bwa-mem2
生信软件27 - 基于python的基因注释数据查询/检索库mygene
生信软件28 - fastq与bam的reads数量计算与双端fastq配对检测工具fastq-pair
生信软件29 - 三代数据高效映射精确的长读段比对工具mapquik
生信软件31 - Bcftools操作VCF/BCF文件高级用法合集
生信软件33 - Wgsim生成双端(PE) fastq模拟数据
生信软件34 - 大幅提升Python程序执行效率的工具Pypy
生信软件36 - SAM/BAM/CRAM文件插入SNV/INDEL/SV工具Bamsurgeon
生信软件37 - 基于测序reads变异进行单倍型分型工具WhatsHap
生信软件39 - GATK最佳实践流程重构,提高17倍分析速度的LUSH流程
生信软件43 - iGenomes批量下载Ensembl、NCBI、GATK和UCSC参考基因组和注释文件资源