illumina 肿瘤分析流程

最新推荐文章于 2024-10-15 18:06:18 发布

原创

最新推荐文章于 2024-10-15 18:06:18 发布 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

本文首发于公众号：柠檬培养师（ID: yantinger90），欢迎关注！

本文介绍了如何将本地Win电脑上的Illumina肿瘤分析流程部署到Linux服务器，涉及DNA分析的bwa比对、bam文件处理、variant calling等步骤。在Linux上，由于数据拆分和合并的不同，部分脚本需要调整，如TranslateBam、Indel重排序和合并reads。此外，文中提到了Pisces、Nirvana等软件在不同阶段的应用，以及基因组资源和注释数据库的更新问题。

本地 Win 电脑部署了一套 ILLUMINA 的肿瘤分析流程，有 DNA 和 RNA 两个流程。需要将这套分析流程部署到 Linux 服务器上。

通过查看日志，发现 DNA 的 Workflow 主要有以下几个部分：

数据拆分
- 数据拆分：通过 bcl2fastq 拆分数据（现有流程已有拆分步骤，可忽略）；
bam 文件处理
- bwa比对：将 fastq 文件比对到基因组；
- TranslateBam：作用未知，似乎是通过 target 文件对 bam 文件区域做了限定；
- indel重排序：对 bam 文件中的 indel 进行重新对齐，不清楚是左对齐还是右对齐；
- 合并reads：合并 overlap paired-end read；
VariantCalling
- call 变异：使用 Pisces 进行 call 变异；
- 突变质量重矫正：对结果 vcf 结果进行重矫正
结果注释及统计
- 结果注释：对 vcf 结果进行数据库注释
- bam文件统计：对 bam 文件进行统计，但是使用的 puma.exe 无法在 Linux 上运行。也找不到相关资料
- 突变结果统计：对最终 vcf 结果进行统计，但并没有结果文件生成

软件依赖

流程脚本基本是 dll 脚本，可以通过安装.NET Core来跨平台运行。

有一些脚本，在网上找不到下载地址，是直接从 Win 电脑上复制过来的，需要修改相应的XXX.runtimeconfig.json，将framework的version参数从1.0.0改成自己安装的.NET Core版本，比如我现在装的是2.1.7。

另外针对所有的dll脚本，需要在XXX.runtimeconfig.json添加一项configProperties配置，具体如下：

{
  "runtimeOptions": {
    "tfm": "netcoreapp2.0",
    "framework": {
      "name": "Microsoft.NETCore.App",
      "version": "2.0.0" 
    },
    "configProp