目录
miRDeep2快速安装使用教程
1. 引言
1.1 miRDeep2简介
miRDeep2是一个用于从小RNA测序数据中发现已知和新的miRNA的分析工具。它包含了多个模块,可以对测序数据进行预处理、比对到参考基因组、检测已知和新的miRNA等。
2. miRDeep2的主要功能
- 从小RNA测序数据中发现已知和新的miRNA
- 对测序数据进行预处理,如去除适配子、去重等
- 将测序数据比对到参考基因组
- 根据测序数据和基因组信息检测miRNA前体结构和表达
- 提供可视化结果,包括HTML报告和PDF图像
2.2 miRDeep2的技术栈
- Perl语言
- Bowtie短序列比对工具
- Vienna RNA二级结构预测工具
- SQUID和randfold库
3. miRDeep2的安装
3.1 系统要求和依赖库
在开始安装miRDeep2之前,需要确保系统满足特定的要求和依赖库。通常需要Linux系统、2GB Ram以及足够的磁盘空间,具体取决于深度测序数据的大小。
3.2 通过conda安装miRDeep2
conda install -c bioconda mirdeep2
conda提供了一种便捷的安装miRDeep2的方法,适合熟悉此工具的用户。
3.3 手动安装依赖
miRDeep2的安装依赖包括bowtie短读序列比对器、Vienna包(含RNAfold)、SQUID库、randfold、Perl包PDF::API2等。具体安装步骤请参考GitHub上的Installation部分。
3.4 安装后的验证
安装完成后,进行验证是确保miRDeep2正常工作的最后一步。
./miRDeep2.pl --help
运行上述命令,如果能够看到帮助信息,则表示安装成功。
4. miRDeep2的使用
4.1 准备输入文件
在使用miRDeep2之前,正确准备输入文件是至关重要的一步。输入文件通常为FASTQ或FASTA格式的测序数据。
4.2 配置文件设置
配置文件的设置直接影响miRDeep2的分析结果,需要仔细调整。配置文件通常包括样本信息、参考基因组和已知miRNA数据库等。
4.3 miRDeep2.pl
描述:
miRDeep2.pl
是一个包装器脚本,用于运行miRDeep2包中的所有必要脚本来执行深度测序数据中的miRNA检测分析。
输入:
- 深度测序读取的FASTA文件
- 对应基因组的FASTA文件
- 基因组中映射读取的ARF格式文件
- 可选的已知miRNA的FASTA文件(分析物种)
- 可选的已知miRNA的FASTA文件(相关物种)
输出:
- 一个电子表格和HTML文件,概述了深度测序输入数据中检测到的所有miRNA。
选项:
‑a <int>
:触发分析的最小读取堆栈高度。使用此选项将禁用最佳值的自动估计。‑b <int>
:在概览表中显示的预测新miRNA的最小得分截止值。此得分截止值默认为0。‑c
:禁用randfold分析。‑t <species>
:被分析的物种 - 用于链接到适当的UCSC浏览器。‑u
:输出支持的UCSC浏览器物种列表并退出。‑v
:移除临时文件目录。‑q <file>
:来自quantifier模块的miRBase.mrd
文件,以显示数据中未被miRDeep2评分的miRBase miRNA。
示例使用:
miRDeep2.pl reads_collapsed.fa genome.fa reads_collapsed_vs_genome.arf miRBase_mmu_v14.fa miRBase_rno_v14.fa precursors_ref_this_species.fa -t Mouse 2>report.log
4.4 mapper.pl
描述:
mapper.pl
处理读取和/或将它们映射到参考基因组。
输入:
默认输入是FASTA、seq.txt
或qseq.txt
格式的文件。
输出:
输出取决于使用的选项,可能是处理过的读取的FASTA文件,或映射读取的ARF文件,或两者都有。
选项:
‑a
:输入文件是seq.txt
格式。‑b
:输入文件是qseq.txt
格式。‑c
:输入文件是FASTA格式。‑h
:解析为FASTA格式。‑i
:将RNA转换为DNA字母表(以映射到基因组)。‑j
:移除所有序列中包含除a
,c
,g
,t
,u
,n
,A
,C
,G
,T
,U
,N
之外的字母的条目。‑k <seq>
:剪切3’端适配器序列。‑l <int>
:丢弃小于<int>
nts的读取。‑m
:折叠读取。‑p <genome>
:映射到基因组(必须由bowtie-build
索引)。<genome>
字符串必须是bowtie索引的前缀。‑q
:使用一个错配的种子进行映射(映射时间更长)。
示例使用:
mapper.pl reads_qseq.txt -b -h -i -j -k TCGTATGCCGTCTTCTGCTTGT -l 18 -m -s reads_collapsed.fa
4.5 quantifier.pl
描述:
quantifier.pl
模块将深度测序读取映射到预定义的miRNA前体,并据此确定相应miRNA的表达。
输入:
- 前体序列的FASTA文件
- 成熟miRNA序列的FASTA文件
- 深度测序读取的FASTA文件
- 可选的miRBase中的星形序列和物种的3字母代码
输出:
- 一个名为
miRNA_expressed.csv
的两列表格文件,包含miRNA标识符和其读取计数 - 一个名为
miRNA_not_expressed.csv
的文件,包含所有读取计数为0的miRNA - 一个名为
miRBase.mrd
的签名文件 - 一个名为
expression.html
的文件,提供输入数据中所有miRNA的概览 - 一个名为
pdfs
的目录,其中包含每个miRNA的PDF文件,显示其签名和结构
选项:
-p [file.fa]
:miRNA前体序列(大约70bp:每个前体序列一行)-m [file.fa]
:成熟miRNA序列(大约22nt)-s [star.fa]
:可选的miRBase中的星形序列-t [species]
:例如Mouse或mmu
示例使用:
quantifier.pl -p precursors.fa -m mature.fa -r reads.fa
这些脚本是miRDeep2分析流程中的核心工具,通过这些详细的使用说明,用户可以更加精确地执行miRNA的鉴定和定量分析。
🌟 非常感谢您抽出宝贵的时间阅读我的文章。如果您觉得这篇文章对您有所帮助,或者激发了您对生物信息学的兴趣,我诚挚地邀请您:
👍 点赞这篇文章,让更多人看到我们共同的热爱和追求。
🔔 关注我的账号,不错过每一次知识的分享和探索的旅程。
📢 您的每一个点赞和关注都是对我最大的支持和鼓励,也是推动我继续创作优质内容的动力。
📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。
💌 如果您有任何问题或想要进一步交流,欢迎在评论区留言,我会尽快回复您。
🌐 点击下方的微信名片,加入交流群,与志同道合的朋友们一起探讨、学习和成长。