Illumina下机数据bcl格式转为fastq

本文介绍了如何将Illumina测序得到的bcl格式数据转换成fastq格式,用于下游生物信息学分析。关键步骤包括使用CASAVA软件中的bcl2fastq工具,通过demultiplexing过程,依据samplesheet.csv文件将multiplexed reads分离到各样品文件中。正确配置samplesheet.csv是转换成功的关键。

BCL2FASTQ

Illumina刚下机的数据为bcl格式文件(per-cycle BCL basecall file),但是下游的分析一般都需要fastq格式文件,所以在进行下游分析之前,需要使用CASAVA软甲中的configureBclToFastq.pl将bcl格式的文件根据每个样本之前添加的index分出,并转为fastq格式的文件。在看bcl2fastq的说明文档时,会经常碰到一个词:demultiplexing,指的就是将multiplexed的reads根据index从不同或者同一个lane中分出,生成sample对应的fastq文件,这一步就涉及到输入正确的samplesheet.csv。
所有的步骤只使用一行代码就可以解决,首先贴出代码:

#PBS -N bcl2fastq
#PBS -j oe      
#PBS -l walltime=5000:00:00  
#PBS -l nodes=c15:ppn=10
#PBS -q low 
#PBS -j n
nth=${PBS_NUM_PPN}
outdir=/path/to/personaldir/to/store/fastqfile
indir=/path/to/BaseCalls
/usr/local/bin/configureBclToFastq.pl --no-eamss \
                                      --use-bases-mask y51,I6nn,I0nnnnnnnn \   ###y51代表read长度,I6nn代表index长度为6且由于本次测序人员的个人习惯,后面会外加两个空碱基,I0nnnnnnnn代表只使用了一个index即为前面那个,此时仍需设定长度为8
                                      --mismatches 1 \
                                      --input-dir $indir \
                                      --output-dir $outdir/raw \
                                      --sample-sheet $outdir/sample.csv \
                                      --fastq-cluster-count 0 --force

cd $outdir/raw   ###运行过程中会在输出目录产生产生MakeFile,需要指定到输出目录然后完成 * 

nohup make -j $nth   ##可多线程运行

刚下机数据的目录构成以及默认情况下转换后的目录构成

重要的一点 一个正确格式的输入:samplesheet.csv

官方实例以及各列名的解释

![原始samplesheet来自测序人员]

整理后的各列及内容

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值