关于转录组比对STAR软件使用

本文介绍了一款名为STAR的高效RNA-seq比对软件,它能快速准确地处理高通量数据,显著提高比对速度,改善比对质量和准确性。通过使用连续最大可比对种子搜索、种子聚类和缝合过程,STAR成功应对了不连续转录本结构、短片段长度和高通量测序带来的挑战。实验验证了其在发现基因间剪接点和非典型拼接方面的能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考文章:http://weibo.com/p/23041883f77c940102vbkd?sudaref=passport.weibo.com

软件连接:https://github.com/alexdobin/STAR/

因为不连续的转录本结构,相对短的片段长度,和测序技术持续增加的通量,高通量RNA-seq数据的准确比对是一个有挑战性且仍未解决的问题。当前可用的RNA-seq比对器遭受高比对错误率,低比对速度,片段长度限制和比对偏差。结果:为了比对我们的大量(> 800亿片段)ENCODE转录组RNA-seq数据集,我们基于一种以前未描述的RNA-seq比对算法开发了STAR(Spliced Transcripts Alignments to a Reference,STAR)软件,该算法使用了未压缩后缀阵列中的连续最大可比对种子搜索,接着种子聚类和缝合过程。STAR在比对速度上胜过其他比对器50多倍,在一个普通的12核服务器上,每小时比对5.5亿2 x 76 bp双端片段到人类基因组上,同时改进了比对敏感性和准确性。除了典型剪接的非偏从头检测外,STAR能够发现非典型拼接和嵌合(融合)转录本,并能够比对全长RNA序列。使用逆转录聚合酶链式反应扩增子的罗氏454测序,我们实验上验证了1960个新的基因间剪接点,具有80-90%的准确率,证实了STAR比对策略的高准确性。可用性和实现:STAR被实现为一个单机C++代码。STAR是在GPLv3许可证下发布的免费开源软件。

 

1:STAR的比对分析基本上可以分为两步:一是genomeGenerate(类似于tophat的index);二是:序列比对

 

2:关于第一步genomeGenerate运行一次就可以了:

 

STAR --runMode genomeGenerate --runThreadN 10 --genomeFastaFiles/home/share/genome/Homo_sapiens/UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa--sjdbGTFfile/home/share/genome/Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf--sjdbOverhang 89

 

 

—runMode:运行程序模式,默认是比对,所以第一步这个参数设置很关键

—runThreadN: 运行的线程数

—genomeDir: 这个参数很重要,是存放你声称index文件路径,需要你事先建立一个有可读写权限的文件夹

—genomeFastaFiles: 基因组fasta格式文件

—sjdbGTFfile :GTF注释文件

—sjdbOverhang: 这个值为你测序read的长度减1,是在注释可变剪切序列的时候使用的最大长度值

 

5:运行比对

STAR不但可以进行比对,还可以输出可变剪切,转录本融合,以及控制输出格式为SAM或者BAM,并对输出的BAM可进行选择性排序输出。最主要在比对的过程中还提供了ENCODE的比对参数。

STAR --runThreadN 20 --readFilesIn/home/fanyc/RNA-seq/raw_data/SRR993723.sra_1.fastq/home/fanyc/RNA-seq/raw_data/SRR993723.sra_2.fastq--quantMode TranscriptomeSAM --outSAMtype BAM SortedByCoordinate--outFileNamePrefix /home/fanyc/RNA-seq/STAR/23--outFilterType BySJout --outFilterMultimapNmax 20 --alignSJoverhangMin 8 --alignSJDBoverhangMin 1 --outFilterMismatchNmax 999 --outFilterMismatchNoverLmax0.04 --alignIntronMin 20 --alignIntronMax 1000000 --alignMatesGapMax 1000000 --chimSegmentMin 20

 

上面结合了ENCODE的参数,同时又加上了比对输出为BAM格式,并对BAM格式进行排序。另外输出可变剪切,以及转录本融合的结果。

 

—readFilesIn 输出的原始测序数据

 

--outSAMtype BAM SortedByCoordinate 输出格式为BAM并排序

 

--chimSegmentMin20 输出融合转录本,20代表比对的最短的碱基数目

 

--outFileNamePrefix  输出文件的前缀

--quantMode TranscriptomeSAM  转录本定量

 

6:生成的文件:

Chimeric.out.junction  融合转录本

Aligned.sortedByCoord.out.bam  比对输出

Aligned.toTranscriptome.out.bam 转录本比对输出

SJ.out.tab 可变剪切结果输出

 

转载于:https://www.cnblogs.com/daimakun/p/5081638.html

### 转录组 nt 比对的定义及方法 #### 定义 转录组 nt 比对是指将 RNA 测序(RNA-Seq)产生的短读段(short reads)与参考核酸序列数据库(nucleotide database, nt)进行比对的过程。这种比对的主要目的是识别这些读段对应的基因或转录本,进而推断样本中的基因表达水平、可变剪接事件或其他生物学特性[^1]。 在实践中,nt 数据库通常由 NCBI 提供,包含了广泛的核酸序列资源,涵盖了多种物种及其已知的基因和转录本信息。因此,转录组 nt 比对不仅限于单一物种的参考基因组,还可能涉及跨物种的研究场景。 --- #### 方法概述 ##### 1. 预处理阶段 在进行转录组 nt 比对之前,原始测序数据需要经过严格的质量控制(QC)。这一步骤旨在移除低质量碱基、接头污染以及其他可能导致错误比对的因素。常用工具包括 Fastp 和 Trimmomatic[^2]。 ```bash # 示例命令行调用 Fastp 进行 QC 处理 fastp -i input_R1.fq.gz -I input_R2.fq.gz -o output_R1.fq.gz -O output_R2.fq.gz --detect_adapter_for_pe ``` ##### 2. 比对工具的选择 针对转录组 nt 比对的任务特点,可以选择不同的比对工具来满足需求。以下是几类常见工具及其适用范围: ###### (1)基于全局比对的工具 此类工具适用于高相似度序列间的比对,能够提供较高的精度。代表性工具有 BLASTN 和 DIAMOND。 - **BLASTN**: 广泛应用于核酸序列查询任务中,尤其适合探索未知序列的功能注释[^3]。 - **DIAMOND**: 尽管最初设计用于蛋白质序列比对,但在某些场景下也可扩展至核酸领域,具备更高的计算效率。 ###### (2)拼接感知型比对器 当研究对象包含复杂的剪接模式时,推荐使用支持 splicing-aware 的比对工具。例如: - **STAR**: 支持高效的剪接位点检测,并能很好地适应大体量数据集的需求[^4]。 - **HISAT2**: 利用分层索引策略提升性能,同时兼容多样化的输入格式。 ###### (3)非拼接型比对器 如果目标是简单的一致性比对而非关注剪接细节,则可以考虑如下选项: - **Bowtie2**: 快速且灵活,特别适合小型基因组或简化模型系统的应用。 - **BWA-MEM**: 更加注重长片段读取的支持能力,在复杂背景条件下表现出色。 ##### 3. 后续分析流程 完成初筛后的比对文件需进一步加工才能提取有用的信息。一般会经历以下几个步骤: - **质控评估**: 使用 Qualimap 或 MultiQC 等软件检查比对覆盖率、均匀性等指标[^5]。 - **定量统计**: 结合 HTSeq-count 或 FeatureCounts 计算各基因/转录本上的 read 数目。 - **功能注释**: 借助 UniprotKB、GO 数据库等补充额外的知识维度[^6]。 --- ### 示例代码块 以下是一个完整的从预处理到比对再到基本定量的工作流示例: ```bash # 步骤 1: 数据清理 fastp -i raw_data/SampleA_R1.fastq.gz -I raw_data/SampleA_R2.fastq.gz \ -o clean_data/SampleA_R1.clean.fq.gz -O clean_data/SampleA_R2.clean.fq.gz # 步骤 2: 构建 STAR 索引 STAR --runMode genomeGenerate --genomeDir index_dir --genomeFastaFiles ref_genome.fa \ --sjdbGTFfile annotation.gtf --sjdbOverhang 100 # 步骤 3: 执行比对 STAR --genomeDir index_dir --readFilesCommand zcat --readFilesIn clean_data/SampleA_R*.clean.fq.gz \ --outFileNamePrefix SampleA_aligned/ # 步骤 4: 量化表达值 featureCounts -a annotation.gtf -o counts.txt -T 8 -p SampleA_aligned/Aligned.out.sam ``` --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值