转录组分析中Trimmomatic和Trim_galore详细使用说明(2) Trim_galore

Trim_galore是一个基于Perl的工具,结合Cutadapt和Fastqc,简化了RNA-seq和RRBS测序数据的预处理。它具有简单易用、参数直观的优势,但也存在可调参数较少的不足。主要功能包括质量修剪、接头修剪、短序列移除等,并提供针对RRBS测序的特殊处理。常用参数如`-q`设定质量阈值,`--illumina`选择接头类型,`--paired`处理双端测序数据,以及`--retain_unpaired`保留过短的单端reads。
部署运行你感兴趣的模型镜像

Trim_galore 实际上是个套皮的Cutadapt和Fastqc,主要都是用Perl写的。

优劣势分析

优势:
1、安装和使用都非常简单;
2、代码较短
3、参数更直观,不用去死记硬背
4、默认下paired和unpaired,运行速度较快
劣势:
1、可调参数较少

除此之外,trim_galore还有一个特色就是可以对RRBS(Reduced Representation Bisulfite Sequencing, DNA甲基化测序)构建的文本库进行相应的质控,比如“–rrbs” 参数对于 RRBS测序中引入的碱基C进行处理,会去除3’端的2个碱基。具体参照说明书

Trim_galore使用说明

Trim_galore文件相关参数

Trim_galore处理序列的流程可以分为以下几个步骤:

  1. quality trimming 质量分数相关处理
  2. adapter trimming 接头处理
  3. removing Short Sequences 过短reads处理
  4. specialised Trimming 特殊处理

输入参数时最好根据上述流程输入各自对应的参数,常用命令:

trim_galore -q 25 --phred33 --fastqc --length 36 --stringency 3 --paired -o ../cleanData *${sample}*.gz 

-q/–quality
对RRBS样本来说,quanlity trimming结束后才会进行adapter trimming;在一般样本中,两者同时进行。此处默认质量分数为20。

–phred33
–phred64
默认编码为phred33编码,具体用33还是64取决于测序平台。

–fastqc
在处理结束后自动运行FastQC

–illumina/nextera/small_rna
跟trimmomatic一样,根据adapter content报告选择要去除的接头序列类型,如果不选择该类参数,trim_galore会根据前一百万个碱基自动判断接头序列类型;要注意的是,当选择–small_rna时,–length参数会自动设置为18bp。

–stringency 严格度
接头序列最小配对碱基数:简单来说就是最多能允许末端残留多少个接头序列的碱基,默认值为极端值1;该参数与trimmomatic中ILLUMINACLIP <minAdapterLength>含义相同。

–length
保留reads的最短长度。设置为0时代表不选择该选项。默认为20bp。对双端测序来说,一旦有一段低于length值,另一端必须选择是否保留。

其他参数:

–clip_R1
切掉Read 1 5端的N个碱基

–clip_R2
切掉Read 2 5端的N个碱基

–three_prime_clip_R1
在接头序列/质量差碱基切除后,切掉read 1 3端的N个碱基

–three_prime_clip_R2
在接头序列/质量差碱基切除后,切掉read 2 3端的N个碱基

以上选项主要是reads两端出现一些Bias的碱基(非接头序列或质量分数相关)时可以用到。

–basename <PREFERRED_NAME>

–basename类似trimmomatic中的baseout,对双端测序会自动输出 PREFERRED_NAME_val_1.fq(.gz) and PREFERRED_NAME_val_2.fq(.gz) 。

-j/–cores INT

运行程序的核心数。Python2环境下只能为1。如果环境中已安装python3和pigz(parallel gzip)gzip,可以选择多核处理(但要注意gzip会严重拖累多核处理的速度)。一般选择–cores = 4就可以了,这里的core数虽然是4,但其实代表的是每个过程使用的核心数。
–cores 4 代表: 4 个用于读取 + 4 个用于写入 + 4 个用于Cutadapt+ 2 个用于Cutadapt的其他任务+ 1 个用于trim_galore本身 = 总共15个。

–paired
表明是双端测序文件

–retain_unpaired
在双端测序某一端处理后过短时,默认为舍弃该段的两端reads, 添加此参数则保留reads,长一点的那一端文件会自动保存为.unpaired_1.fq 或者 .unpaired_2.fq
.

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值