sra文件转换为fastq格式
|
1
|
fastq-dump -h
|
--split-3
也就是说如果SRA文件中只有一个文件,那么这个参数就会被忽略。如果原文件中有两个文件,那么它就会把成对的文件按*_1.fastq,*_2.fastq这样分开。如果还出现了第三个文件,就意味着这个文件本身是未成配对的部分。可能是当初提交的时候因为事先过滤过了一下,所以有一部分数据被删除了。
--gzip
输出文件压缩成gzip格式(
通常gzip仅用来压缩单个文件。多个文件的压缩归档通常是首先将这些文件合并成一个tar文件,然后再使用gzip进行压缩,最后生成的.tar.gz或者.tgz文件就是所谓的“tar压缩包”或者“tarball”)
--bzip2
输出文件压缩成bzip2格式(bzip2比传统的gzip或者ZIP的压缩效率更高,但是它的压缩速度较慢)
|
1
|
ls
*.sra|
while
read
id
;
do
(fastq-dump --
split
-3 $
id
);
done
|
我们的数据是Illumina的双端测序,所以用fastq-dump --split-3命令来把sra格式数据转换为fastq。
总共有7个测序数据,所以最好是同步改名,用-A参数,为了节省空间,用--gzip压缩。
|
1
2
|
perl -F
'\t'
-alne
'if($F[7]=~/SRR/){$F[6]=~s/\s/_/g;$F[13]=~s/\s|#/_/g;$F[13]=~s/\(|\)//g;print "$F[7]\t$F[6]_$F[13]"}'
SraRunTable.txt > Rename.txt
perl -F
'\t'
-alne
'print "fastq-dump --split-3 --gzip -A $F[1] $F[0].sra"'
Rename.txt > sratofq.sh<br>
bash
sratofq.sh
|
数据校验及备份存放
在此最开始之前应该做个md5sum数据传输完整性验证;或者拿到自己的数据后,压缩后生产MD5文件,然后备份保存
|
1
|
md5sum *.fastq.gz |
tee
md5sum.txt
|
验证MD5值
|
1
|
md5sum -c md5sum.txt
|
-c选项来对文件md5进行校验。校验时,根据已生成的md5来进行校验。生成当前文件的md5,并和之前已经生成的md5进行对比,如果一致,则返回OK,否则返回错误信息
质控FastQC
|
1
2
3
4
|
mkdir
rna_seq
/work
&&
cd
rna_seq
/work
ln
..
/data/
* .
# 建立软连接
mkdir
1_FastQC_Raw_Data
ls
*.gz|
while
read
id
;
do
(fastqc $
id
-o 1_FastQC_Raw_Data -t 3);
done
|
问题:
FastQC报告中哪些是值得关注的?
注意事项:
1、数据质控是一个综合的评价标准,其中主要指标为碱基质量与含量分布,如果这两个指标合格了,后面大部分指标都可以通过。如果这两项不合格,其余都会受到影响。
2、其中一些指标并不适合所有数据。要根据具体数据类型,具体分析。
本文介绍如何使用fastq-dump工具将SRA格式文件转换为FASTQ格式,包括参数详解如--split-3、--gzip等。同时,通过Perl脚本批量处理并重命名文件,以及使用md5sum进行数据完整性验证。最后,通过FastQC进行数据质控,检查碱基质量和含量分布等关键指标。

1660

被折叠的 条评论
为什么被折叠?



