2024.12.02.【读书笔记】|miRDeep2快速安装使用教程

miRDeep2快速安装使用教程

1. 引言

1.1 miRDeep2简介

miRDeep2是一个用于从小RNA测序数据中发现已知和新的miRNA的分析工具。它包含了多个模块,可以对测序数据进行预处理、比对到参考基因组、检测已知和新的miRNA等。

2. miRDeep2的主要功能

  1. 从小RNA测序数据中发现已知和新的miRNA
  2. 对测序数据进行预处理,如去除适配子、去重等
  3. 将测序数据比对到参考基因组
  4. 根据测序数据和基因组信息检测miRNA前体结构和表达
  5. 提供可视化结果,包括HTML报告和PDF图像

2.2 miRDeep2的技术栈

  • Perl语言
  • Bowtie短序列比对工具
  • Vienna RNA二级结构预测工具
  • SQUID和randfold库

3. miRDeep2的安装

3.1 系统要求和依赖库

在开始安装miRDeep2之前,需要确保系统满足特定的要求和依赖库。通常需要Linux系统、2GB Ram以及足够的磁盘空间,具体取决于深度测序数据的大小。

3.2 通过conda安装miRDeep2

conda install -c bioconda mirdeep2

conda提供了一种便捷的安装miRDeep2的方法,适合熟悉此工具的用户。

3.3 手动安装依赖

miRDeep2的安装依赖包括bowtie短读序列比对器、Vienna包(含RNAfold)、SQUID库、randfold、Perl包PDF::API2等。具体安装步骤请参考GitHub上的Installation部分。

3.4 安装后的验证

安装完成后,进行验证是确保miRDeep2正常工作的最后一步。

./miRDeep2.pl --help

运行上述命令,如果能够看到帮助信息,则表示安装成功。

4. miRDeep2的使用

4.1 准备输入文件

在使用miRDeep2之前,正确准备输入文件是至关重要的一步。输入文件通常为FASTQ或FASTA格式的测序数据。

4.2 配置文件设置

配置文件的设置直接影响miRDeep2的分析结果,需要仔细调整。配置文件通常包括样本信息、参考基因组和已知miRNA数据库等。

4.3 miRDeep2.pl

描述:
miRDeep2.pl是一个包装器脚本,用于运行miRDeep2包中的所有必要脚本来执行深度测序数据中的miRNA检测分析。

输入:

  • 深度测序读取的FASTA文件
  • 对应基因组的FASTA文件
  • 基因组中映射读取的ARF格式文件
  • 可选的已知miRNA的FASTA文件(分析物种)
  • 可选的已知miRNA的FASTA文件(相关物种)

输出:

  • 一个电子表格和HTML文件,概述了深度测序输入数据中检测到的所有miRNA。

选项:

  • ‑a <int>:触发分析的最小读取堆栈高度。使用此选项将禁用最佳值的自动估计。
  • ‑b <int>:在概览表中显示的预测新miRNA的最小得分截止值。此得分截止值默认为0。
  • ‑c:禁用randfold分析。
  • ‑t <species>:被分析的物种 - 用于链接到适当的UCSC浏览器。
  • ‑u:输出支持的UCSC浏览器物种列表并退出。
  • ‑v:移除临时文件目录。
  • ‑q <file>:来自quantifier模块的miRBase.mrd文件,以显示数据中未被miRDeep2评分的miRBase miRNA。

示例使用:

miRDeep2.pl reads_collapsed.fa genome.fa reads_collapsed_vs_genome.arf miRBase_mmu_v14.fa miRBase_rno_v14.fa precursors_ref_this_species.fa -t Mouse 2>report.log

4.4 mapper.pl

描述:
mapper.pl处理读取和/或将它们映射到参考基因组。

输入:
默认输入是FASTA、seq.txtqseq.txt格式的文件。

输出:
输出取决于使用的选项,可能是处理过的读取的FASTA文件,或映射读取的ARF文件,或两者都有。

选项:

  • ‑a:输入文件是seq.txt格式。
  • ‑b:输入文件是qseq.txt格式。
  • ‑c:输入文件是FASTA格式。
  • ‑h:解析为FASTA格式。
  • ‑i:将RNA转换为DNA字母表(以映射到基因组)。
  • ‑j:移除所有序列中包含除a, c, g, t, u, n, A, C, G, T, U, N之外的字母的条目。
  • ‑k <seq>:剪切3’端适配器序列。
  • ‑l <int>:丢弃小于<int> nts的读取。
  • ‑m:折叠读取。
  • ‑p <genome>:映射到基因组(必须由bowtie-build索引)。<genome>字符串必须是bowtie索引的前缀。
  • ‑q:使用一个错配的种子进行映射(映射时间更长)。

示例使用:

mapper.pl reads_qseq.txt -b -h -i -j -k TCGTATGCCGTCTTCTGCTTGT -l 18 -m -s reads_collapsed.fa

4.5 quantifier.pl

描述:
quantifier.pl模块将深度测序读取映射到预定义的miRNA前体,并据此确定相应miRNA的表达。

输入:

  • 前体序列的FASTA文件
  • 成熟miRNA序列的FASTA文件
  • 深度测序读取的FASTA文件
  • 可选的miRBase中的星形序列和物种的3字母代码

输出:

  • 一个名为miRNA_expressed.csv的两列表格文件,包含miRNA标识符和其读取计数
  • 一个名为miRNA_not_expressed.csv的文件,包含所有读取计数为0的miRNA
  • 一个名为miRBase.mrd的签名文件
  • 一个名为expression.html的文件,提供输入数据中所有miRNA的概览
  • 一个名为pdfs的目录,其中包含每个miRNA的PDF文件,显示其签名和结构

选项:

  • -p [file.fa]:miRNA前体序列(大约70bp:每个前体序列一行)
  • -m [file.fa]:成熟miRNA序列(大约22nt)
  • -s [star.fa]:可选的miRBase中的星形序列
  • -t [species]:例如Mouse或mmu

示例使用:

quantifier.pl -p precursors.fa -m mature.fa -r reads.fa

这些脚本是miRDeep2分析流程中的核心工具,通过这些详细的使用说明,用户可以更加精确地执行miRNA的鉴定和定量分析。


🌟 非常感谢您抽出宝贵的时间阅读我的文章。如果您觉得这篇文章对您有所帮助,或者激发了您对生物信息学的兴趣,我诚挚地邀请您:

👍 点赞这篇文章,让更多人看到我们共同的热爱和追求。

🔔 关注我的账号,不错过每一次知识的分享和探索的旅程。

📢 您的每一个点赞和关注都是对我最大的支持和鼓励,也是推动我继续创作优质内容的动力。

📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。

💌 如果您有任何问题或想要进一步交流,欢迎在评论区留言,我会尽快回复您。

🌐 点击下方的微信名片,加入交流群,与志同道合的朋友们一起探讨、学习和成长。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

穆易青

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值