比如从NCBI上面下载的优讯医学上传数据,发现用R包用不了时,可以这么做:
1.进行比对
# bwa mem 目前用的比较多
bwa mem -t 16 -M -Y hg19.fa SRR6040607.fastq.gz | samtools view -bSh -t 16 -f bam > SRR6040607.bam
#或者用:
bwa aln -n 0 -e 0 -k 0 -t 16 hg19.fa SRR6040607.fq.gz > SRR6040607.sai # 容错率为0
bwa samse -n -1 hg19.fa SRR6040607.sai SRR6040607.fq.gz > SRR6040607.sam # 根据坐标转换为sam文件
samtools view SRR6040607.sam -bSh > SRR6040607.bam # 把sam文件转为bam -s sam -b bam
2.排序
samtools sort -@ 16 SRR6040607.bam -o SRR6040607.sorted.bam # -@ 表示16线程
samtools index SRR6040607.sorted.bam
3.过滤
samtools rmdup -s SRR6040607.sorted.bam SRR6040607.rmdups.bam
samtools view -F 4 SRR6040607.rmdups.bam -bSh > SRR6040607.final.bam
samtools index SRR6040607.final.bam # 对于后面的GC校正时必须的
4.GC校正
使用deeptools里的工具faToTwoBit进行校正,deeptools需要2bit格式的参考基因。
目前流行用loess算法校正
安装fa