提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
一、STAR比对
首先在NCBI上下拟南芥基因组序列(fasta格式)文件和基因组注释文件(GTF格式)。
开启共享文件夹功能,在windows系统中将下载的文件放入共享文件夹中,共享文件位置在/mnt/hgfs/fold name,fold name即在windows系统中共享文件夹的名称。
1.建立基因组索引
使用STAR进行基因组索引拟南芥基因组序列(fasta/fna格式,fna文件可直接改名fa)文件和基因组注释文件(GTF格式)。
确保提前进入rna环境。该程序会比较吃内存,保证虚拟机内存至少为8G.
conda activate rna
STAR --runMode genomeGenerate --genomeDir /home/lumino/TEST1/STARoutput2 --genomeFastaFiles /home/lumino/TEST1/GCA_000001735.2_TAIR10.1_genomic.fa --sjdbGTFfile /home/lumino/TEST1/genomic.gtf --sjdbOverhang 99 --genomeSAindexNbases 12
-
STAR
:这是运行 STAR 工具的命令。 -
--runMode genomeGenerate
:这是指定 STAR 运行的模式,即生成基因组索引。 -
--/home/lumino/TEST1/STARoutput2
:这是指定生成的基因组索引文件的输出目录路径。您需要将/home/lumino/TEST1/STARoutput2
替换为您希望保存索引文件的实际路径。 -
--genomeFastaFiles /home/lumino/TEST1/GCA_000001735.2_TAIR10.1_genomic.fa
:这是指定包含基因组序列的 FASTA 文件的路径。您需要将/home/lumino/TEST1/GCA_000001735.2_TAIR10.1_genomic.fa
替换为您实际的基因组序列文件路径。 -
--sjdbGTFfile /path/to/annotation.gtf
:这是指定包含注释信息的 GTF 文件的路径。您需要将/home/lumino/TEST1/genomic.gtf
替换为您实际的注释文件路径。 -
--sjdbOverhang 99
:这是指定用于比对的 reads 的长度减去 1。在这个例子中,100
表示 reads 的长度减去 1 为 99。这个参数的设置会影响 STAR 的比对效果。 -
--genomeSAindexNbases 12 推荐的参数,默认为14,但可能对这个基因组大小来说太大。
-
完成后在文件夹内生以下文件。
2.作图
使用STAR对SRR3418005-filtered.fastq文件进行比对和基因组定位。
确保内存大于12G(很重要),新建一个STAR_result的文件夹。
STAR --genomeDir /home/lumino/TEST1/STARoutput2 --readFilesIn /home/lumino/TEST1/SRR3418005-filtered.fastq --runThreadN 4 --outSAMstrandField intronMotif --sjdbGTFfile /home/lumino/TEST1/genomic.gtf --outFileNamePrefix /home/lumino/TEST1/STARoutput2/STAR_result/SRR3418005-filtered-STAR
--genomeDir /home/lumino/TEST1/STARoutput2
: 指定STAR索引文件的目录路径。--readFilesIn /home/lumino/TEST1/SRR3418005-filtered.fastq
: 指定要比对的fastq文件路径。--runThreadN 4
: 指定使用的线程数为4,用于加速比对过程。--outSAMstrandField intronMotif
: 指定输出的SAM文件中包含intron motif信息。