本地 Win 电脑部署了一套 ILLUMINA
的肿瘤分析流程,有 DNA 和 RNA 两个流程。需要将这套分析流程部署到 Linux 服务器上。
通过查看日志,发现 DNA 的 Workflow 主要有以下几个部分:
- 数据拆分
- 数据拆分: 通过 bcl2fastq 拆分数据(现有流程已有拆分步骤,可忽略);
- bam 文件处理
- bwa比对: 将 fastq 文件比对到基因组;
- TranslateBam: 作用未知,似乎是通过 target 文件对 bam 文件区域做了限定;
- indel重排序:对 bam 文件中的 indel 进行重新对齐,不清楚是左对齐还是右对齐;
- 合并reads:合并 overlap paired-end read;
- VariantCalling
- call 变异: 使用 Pisces 进行 call 变异;
- 突变质量重矫正: 对结果 vcf 结果进行重矫正
- 结果注释及统计
- 结果注释:对 vcf 结果进行数据库注释
- bam文件统计:对 bam 文件进行统计,但是使用的 puma.exe 无法在 Linux 上运行。也找不到相关资料
- 突变结果统计:对最终 vcf 结果进行统计,但并没有结果文件生成
软件依赖
流程脚本基本是 dll
脚本,可以通过安装.NET Core
来跨平台运行。
有一些脚本,在网上找不到下载地址,是直接从 Win 电脑上复制过来的,需要修改相应的XXX.runtimeconfig.json
,将framework
的version
参数从1.0.0
改成自己安装的.NET Core
版本,比如我现在装的是2.1.7
。
另外针对所有的dll
脚本,需要在XXX.runtimeconfig.json
添加一项configProperties
配置,具体如下:
{
"runtimeOptions": {
"tfm": "netcoreapp2.0",
"framework": {
"name": "Microsoft.NETCore.App",
"ver