关于转录组比对STAR软件使用

最新推荐文章于 2025-06-17 09:04:21 发布

weixin_30256901

最新推荐文章于 2025-06-17 09:04:21 发布

阅读量1.3k

点赞数 1

CC 4.0 BY-SA版权

文章标签： c/c++

原文链接：http://www.cnblogs.com/daimakun/p/5081638.html

本文介绍了一款名为STAR的高效RNA-seq比对软件，它能快速准确地处理高通量数据，显著提高比对速度，改善比对质量和准确性。通过使用连续最大可比对种子搜索、种子聚类和缝合过程，STAR成功应对了不连续转录本结构、短片段长度和高通量测序带来的挑战。实验验证了其在发现基因间剪接点和非典型拼接方面的能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考文章：http://weibo.com/p/23041883f77c940102vbkd?sudaref=passport.weibo.com

软件连接：https://github.com/alexdobin/STAR/

因为不连续的转录本结构，相对短的片段长度，和测序技术持续增加的通量，高通量RNA-seq数据的准确比对是一个有挑战性且仍未解决的问题。当前可用的RNA-seq比对器遭受高比对错误率，低比对速度，片段长度限制和比对偏差。结果：为了比对我们的大量（> 800亿片段）ENCODE转录组RNA-seq数据集，我们基于一种以前未描述的RNA-seq比对算法开发了STAR（Spliced Transcripts Alignments to a Reference，STAR）软件，该算法使用了未压缩后缀阵列中的连续最大可比对种子搜索，接着种子聚类和缝合过程。STAR在比对速度上胜过其他比对器50多倍，在一个普通的12核服务器上，每小时比对5.5亿2 x 76 bp双端片段到人类基因组上，同时改进了比对敏感性和准确性。除了典型剪接的非偏从头检测外，STAR能够发现非典型拼接和嵌合（融合）转录本，并能够比对全长RNA序列。使用逆转录聚合酶链式反应扩增子的罗氏454测序，我们实验上验证了1960个新的基因间剪接点，具有80-90%的准确率，证实了STAR比对策略的高准确性。可用性和实现：STAR被实现为一个单机C++代码。STAR是在GPLv3许可证下发布的免费开源软件。

1:STAR的比对分析基本上可以分为两步：一是genomeGenerate(类似于tophat的index)；二是：序列比对

2:关于第一步genomeGenerate运行一次就可以了：

STAR --runMode genomeGenerate --runThreadN 10 --genomeFastaFiles/home/share/genome/Homo_sapiens/UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa--sjdbGTFfile/home/share/genome/Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf--sjdbOverhang 89

—runMode：运行程序模式，默认是比对，所以第一步这个参数设置很关键

—runThreadN：运行的线程数

—genomeDir：这个参数很重要，是存放你声称index文件路径，需要你事先建立一个有可读写权限的文件夹

—genomeFastaFiles：基因组fasta格式文件

—sjdbGTFfile ：GTF注释文件

—sjdbOverhang：这个值为你测序read的长度减1，是在注释可变剪切序列的时候使用的最大长度值

5:运行比对

STAR不但可以进行比对，还可以输出可变剪切，转录本融合，以及控制输出格式为SAM或者BAM,并对输出的BAM可进行选择性排序输出。最主要在比对的过程中还提供了ENCODE的比对参数。

STAR --runThreadN 20 --readFilesIn/home/fanyc/RNA-seq/raw_data/SRR993723.sra_1.fastq/home/fanyc/RNA-seq/raw_data/SRR993723.sra_2.fastq--quantMode TranscriptomeSAM --outSAMtype BAM SortedByCoordinate--outFileNamePrefix /home/fanyc/RNA-seq/STAR/23--outFilterType BySJout --outFilterMultimapNmax 20 --alignSJoverhangMin 8 --alignSJDBoverhangMin 1 --outFilterMismatchNmax 999 --outFilterMismatchNoverLmax0.04 --alignIntronMin 20 --alignIntronMax 1000000 --alignMatesGapMax 1000000 --chimSegmentMin 20

上面结合了ENCODE的参数，同时又加上了比对输出为BAM格式，并对BAM格式进行排序。另外输出可变剪切，以及转录本融合的结果。

—readFilesIn 输出的原始测序数据

--outSAMtype BAM SortedByCoordinate 输出格式为BAM并排序

--chimSegmentMin20 输出融合转录本，20代表比对的最短的碱基数目

--outFileNamePrefix 输出文件的前缀

--quantMode TranscriptomeSAM 转录本定量

6:生成的文件：

Chimeric.out.junction 融合转录本

Aligned.sortedByCoord.out.bam 比对输出

Aligned.toTranscriptome.out.bam 转录本比对输出

SJ.out.tab 可变剪切结果输出

转载于:https://www.cnblogs.com/daimakun/p/5081638.html