11、比对软件STAR(https://github.com/alexdobin/STAR)

本文介绍了RNA-seq数据分析中常用的比对软件STAR,详细阐述了其安装、索引构建、使用方法和输出文件解析。STAR因其在ENCODE项目中的应用和出色表现而备受关注,还支持chimeric alignment、2-pass mapping等功能,适用于检测融合蛋白和新型剪接 junctions。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载:https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247484731&idx=1&sn=b15fbee5910b36341bf366860ee5df53&scene=21#wechat_redirect

这次给大家带来的是ENCODE project的御用比对软件STAR,ENCODE项目是一个由美国国家人类基因组研究所(NHGRI)在2003年9月发起的一项公共联合研究项目,旨在找出人类基因组中所有功能组件[。这是既完成人类基因组计划后国家人类基因组研究所开始的最重要的项目之一。所有在该项目中产生的数据都会被迅速的在公共数据库中公开。
在我之前的那篇RNA-seq数据分析—-方法学文章的实战练习文章里关于比对软件的比较中STAR也展现了不俗的表现。所以在处理比对时我也考虑了将HISAT2与STAR共同使用,查看它们的表现情况,选取适合的比对工具。


STAR的安装

cd biosoft && mkdir STAR && cd STAR
wget https://github.com/alexdobin/STAR/archive/2.5.3a.tar.gz
tar -xzf 2.5.3a.tar.gz
cd STAR-2.5.3a

# for easy use, add bin/ to your PATH

下载需要参考基因组并进行index构建

# downloading dna index fasta file
nohup wget -r -np -nH -nd -R index.html -L ftp://ftp.ensembl.org/pub/release-90/fasta/homo_sapiens/dna_index/ &

# download gft annotation file
nohup wget ftp://ftp.ensembl.org/pub/release-90/gtf/homo_sapiens/Homo_sapiens.GRCh38.90.chr_patch_hapl_scaff.gtf.gz &

mkdir STAR_index && cd STAR_index
STAR --runMode genomeGenerate --genomeDir ~/reference/STAR_index/ --genomeFastaFiles ~/reference/genome/hg38/Homo_sapiens.GRCh38.dna.toplevel.fa --sjdbGTFfile ~/reference/genome/hg38/Homo_sapiens.GRCh38.90.chr_patch_hapl_scaff.gtf --sjdbOverhang 199

# --sjdbOverhang 数值为reads长度-1
# Mode 为generate
# --genomeFastaFiles --sjdbGTFfile 分别对应fasta文件和GTF文件

STAR的使用

# STAR的manual里面给了最基本的比对参数示例
STAR
--runThreadN NumberOfThreads
--genomeDir /path/to/genomeDir
--readFilesIn /path/to/read1 [/path/to/read2 ]

# 基本示例,
针对fastq.gz文件增加--readFilesCommand gunzip -c 参数/--readFilesCommand zcat参数,针对bzip2文件使用--readFilesCommand bunzip2 -c参数 STAR --runThreadN 20 --genomeDir ~/reference/STAR_index/ --readFilesCommand zcat --readFilesIn ~/RNA-seq/LiuPing_data/RNA-seq/SC_w2q20m35_N_1.fq.gz ~/RNA-seq/LiuPing_data/RNA-seq/SC_w2q20m35_N_2.fq.gz # 输出unsorted or sorted bam file --outSAMtype BAM Unsorted 实际上就是-name 的sort,下游可以直接接HTSeq --outSAMtype BAM SortedByCoordinate --outSAMtype BAM Unsorted SortedByCoordinate 两者都输出
<think>嗯,用户的问题是关于如何在Linux上安装rsem-calculate-expression命令,他提到了使用sudo apt install rsem。我需要先确认这个命令的正确安装方法。首先,根据用户提供的引用[2],里面提到了使用RSEM计算表达量的命令,但并没有说明如何安装。所以可能需要参考其他资料。 通常,在Ubuntu或Debian系统上,软件包可以通过apt安装,但需要确认软件包名称是否正确。用户建议使用sudo apt install rsem,我需要检查是否存在这个包。不过根据我的知识,RSEM可能不在默认的仓库中,可能需要通过conda或者源码安装。比如,引用[1]提到安装Anaconda,可能用户的环境是通过conda管理的。另外,引用[2]中的示例命令是直接使用rsem-calculate-expression,所以可能需要安装RSEM软件。 可能正确的安装方法是通过conda,比如使用bioconda频道。用户之前可能安装过Anaconda,所以可以建议他们使用conda install -c bioconda rsem。此外,如果用户使用的是apt,可能正确的包名是另一个,或者需要添加第三方仓库。但根据常见的生物信息学工具安装流程,conda可能是更可靠的方法。 另外,用户的问题中提到sudo apt install rsem,但不确定是否正确。需要验证是否存在这个包。比如,在Ubuntu中运行apt search rsem,可能找不到或者包名不同。如果不存在,那么需要引导用户使用其他方法,比如源码安装或者conda。例如,引用[2]中的示例可能来自已经安装好的RSEM,所以需要指导用户如何正确安装。 总结步骤:1. 通过conda安装(推荐),2. 源码编译安装。同时,需要检查依赖项,比如Bowtie2,是否安装。另外,安装后需要测试是否成功,比如运行rsem-calculate-expression --help。可能还需要配置环境变量,如引用[1]中提到的,但conda通常会自动处理。 用户可能遇到的问题:如果直接使用apt安装失败,需要转向其他方法。所以回答中需要包含多种安装方式,并指出可能的错误和解决方法。例如,如果找不到包,建议使用conda或者从GitHub克隆源码编译安装。此外,提醒用户安装依赖项,确保RSEM正常运行。</think>根据您提供的引用[2],安装`rsem-calculate-expression`命令需通过RSEM软件包。以下是详细安装方法: ### 方法一:通过conda安装(推荐) 1. 确保已安装Anaconda/Miniconda(参考引用[1]的环境配置方法) 2. 添加生物信息学软件频道并安装: ```bash conda config --add channels bioconda conda install rsem ``` 3. 验证安装: ```bash rsem-calculate-expression --version ``` ### 方法二:源码编译安装 1.GitHub克隆最新代码: ```bash git clone https://github.com/deweylab/RSEM.git cd RSEM make ``` 2. 将可执行文件加入环境变量: ```bash export PATH="/path/to/RSEM:$PATH" ``` ### 依赖项注意 - RSEM需要Bowtie/Bowtie2或STAR作为比对工具,可通过以下命令安装: ```bash conda install bowtie bowtie2 star ``` - 若遇到OpenGL相关错误,需安装`libgl1-mesa-dev`(参考引用[4]的依赖项处理方法)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值