01.基因组注释笔记——RepeatMasker使用记录

kukuwawu

已于 2025-04-30 13:04:50 修改

阅读量2.4k

点赞数 18

分类专栏：生物信息学分析文章标签：笔记学习经验分享基因注释

于 2025-01-08 20:18:12 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_68085527/article/details/144776651

版权

生物信息学分析专栏收录该内容

7 篇文章

订阅专栏

1. 查看官网：

RepeatMasker Home Pagehttps://www.repeatmasker.org/

2. 了解软件的功能：

RepeatMasker 是一个用于筛查 DNA 序列中的散布重复序列（interspersed repeats ）和低复杂度 DNA 序列（low complexity DNA sequences）的程序。

RepeatMasker 中的序列比较是通过多种流行的搜索引擎执行的，包括 nhmmer、cross_match、ABBlast/WUBlast、RMBlast 和 Decypher。RepeatMasker 目前支持 Dfam库和 Repbase库。

Repbase 是一个商业数据库，包含了大量的重复序列数据，包括它们的分类、分布和序列，这些数据被广泛用于基因组注释，特别是在识别和掩蔽基因组中的重复元素。使用 Repbase 数据库通常需要购买商业或学术许可证。Genetic Information Research Institute
Dfam 是一个开放的数据库，它提供了转座元件（TEs）的种子对齐、配置文件隐马尔可夫模型（profile HMMs）和共识序列。数据库中的信息是基于 Repbase 序列衍生的，这意味着它使用 Repbase 中的数据作为基础，进一步加工和整合，以提供更丰富的功能和更好的性能。Dfam

3. 查看软件下载页面：

Download Pagehttps://www.repeatmasker.org/RepeatMasker/

（1）确保要在 Unix 系统上安装 Perl 5.8.0 或更高版本以及 Python 3 和 h5py Python 库。

# 检查版本
perl -v
python3 --version
pip3 list | grep h5py

（2）目前支持搜索引擎 Cross_Match, RMBlast and WUBlast/ABBlast，下载其中之一即可。

RMBlast：是 NCBI Blast 的一个修改版本，专为 RepeatMasker/RepeatModeler 使用。你可以在 RepeatMasker 的下载页面获取 RMBlast，建议使用 2.13.0 或更高版本。
HMMER：可以通过 HMMER 网站下载 v3.2.1 版本。HMMER User's Guide

# 使用conda安装rmblast
conda install bioconda::rmblast
# 检查路径
which rmblastn
# 检查版本是否是2.13.0 以上
rmblastn -v
# 下载hmmer
conda install bioconda::hmmer
# 检查conda中是否已经安装了hmmer
which nhmmer

(3) TRF - Tandem Repeat Finder用于查找串联重复序列的工具, TRF 网站 .

# 下载trf
conda install trf
which trf

(4) 下载软件

conda install bioconda::repeatmasker
which RepeatMasker

# 使用conda安装的repeatmasker,命令在~/miniconda3/envs/qjyzzz/test/bin下
# 文件夹在~/miniconda3/envs/qjyzzz/share/RepeatMasker/下

（5）重复序列数据库，RepeatMasker 可以使用自定义库或直接使用 Dfam。版本（4.1.7）不附带数据库，但配置脚本可以自动下载 Dfam 3.8 的最小版本（根分区），支持使用自定义数据库。

网站提供了 Dfam 数据库的下载和 RepBase RepeatMasker Edition 数据库的下载。

——>>> 这里选择Dfam:

a. 查看下载readme文件，dfam.org/releases/Dfam_3.8/families/FamDB/README.txt

了解到FamDB HDF5 数据库格式支持分区下载，选择我需要的植物分区下载。

Partition 0 [dfam38-1_full.0.h5]：根分区，包含哺乳动物、变形虫、细菌、选择性吞噬虫、红藻、Haptista、Metamonada、真菌、Sar、Placozoa、Ctenophora（合胞体水母）、Filasterea、Spiralia、Discoba、刺胞动物、Porifera（海绵）、病毒等。
Partition 1 [dfam38-1_full.1.h5]：Obtectomera（蛾和蝴蝶）。
Partition 2 [dfam38-1_full.2.h5]：Euteleosteomorpha（真骨鱼类）。
Partition 3 [dfam38-1_full.3.h5]：Sarcopterygii（包括爬行动物、两栖动物等）。
Partition 4 [dfam38-1_full.4.h5]：Diptera（苍蝇）。
Partition 5 [dfam38-1_full.5.h5]：Viridiplantae（植物）。
Partition 6 [dfam38-1_full.6.h5]：Deuterostomia（包括软骨鱼、半索动物等）。
Partition 7 [dfam38-1_full.7.h5]：Hymenoptera（黄蜂、蜜蜂、蚂蚁）。
Partition 8 [dfam38-1_full.8.h5]：Ecdysozoa（包括线虫、昆虫等）。

cd ~/miniconda3/envs/qjyzzz/share/RepeatMasker/

# 确保目录中只包含同一 Dfam 版本的分区。如果存在，请删除最小 RepeatMasker 库
# 检查是否存在：Libraries/famdb/min_init.0.h5
ll Libraries/famdb/

# 安装根分区
cd Libraries/famdb/
wget https://www.dfam.org/releases/Dfam_3.8/families/FamDB/dfam38-1_full.0.h5.gz
gunzip dfam38-1_full.0.h5.gz
# 安装分区数据
wget https://www.dfam.org/releases/Dfam_3.8/families/FamDB/dfam38-1_full.5.h5.gz 
gunzip dfam38-1_full.5.h5.gz

# 确保 RepeatMasker 能够正确识别和使用 FamDB 分区文件
cd ~/miniconda3/envs/qjyzzz/share/RepeatMasker/
./configure
# 按步骤配置

# 使用 famdb.py 工具来获取数据库信息、搜索物种名称、查看分类群的谱系树等
famdb.py -i /public2/home/heyi02/miniconda3/envs/qjyzzz/share/RepeatMasker/Libraries family Quercus

b. 了解学习Dfam数据库

GitHub - Dfam-consortium/FamDB: FamDB file format library and utilities

FamDB软件的names命令可以搜索分类数据库中的物种名称，并打印出所有匹配项的已知名称。

famdb.py -i <directory> names [-f json] <term>
# <directory> 是包含.h5导出文件的文件夹。
# <term> 可以是分类标识符编号或物种/类群名称的一部分。
# 默认输出为人类可读的pretty格式

##### 输出 ############
# Exact Matches：精确匹配项。
# Non-exact Matches：非精确匹配项。

4. 查看软件的使用：

repeatmasker webhttps://www.repeatmasker.org/webrepeatmaskerhelp.html（1）输入格式

必须是 FASTA 格式。可以一次性粘贴多个 FASTA 格式序列或将它们包含在一个文件中。

（2）运行及参数调整

RepeatMasker -lib <library> <input_sequence>
# -lib 参数后面跟着的是转座元素库的路径。
# <input_sequence> 是你的输入序列文件

# 在Linuxx系统中运行以下命令查看更多用法
RepeatMasker --help
RepeatMasker --version

-h：显示详细帮助信息。
-e 或 -engine：指定使用哪个搜索引擎，如 crossmatch、wublast、abblast、ncbi、rmblast 或 hmmer。

-species：指定输入序列的物种或类群。物种名称必须是有效的 NCBI Taxonomy Database 物种名称，并且必须包含在 RepeatMasker 的重复序列数据库中。
# 注意：如果物种名称包含空格，需要用双引号将名称括起来，例如 "ciona savignyi".
# 除了具体的物种名称，你还可以使用更广泛的分类群名称。
# 如果你不指定 -species 参数，RepeatMasker 会使用一个通用的数据库，这个数据库包含了多种物种的重复序列信息。虽然这样可以识别出一些常见的重复序列，但可能无法识别出特定物种特有的重复序列
-uncurated：使用 FamDB 中的整理和未整理家族，而不仅仅是整理的（默认）。

-pa 或 parallel：决定了 RepeatMasker 将并行运行的作业数量。例如，如果你设置 -pa 4，RepeatMasker 将同时运行 4 个作业.
### 搜索引擎核心使用：
RMBlast：每个作业使用 4 个核心.
ABBlast：每个作业使用 4 个核心.
nhmmer：每个作业使用 2 个核心.
crossmatch：每个作业使用 1 个核心

-nolow：不掩蔽低复杂度 DNA 或简单重复序列。
-noint：仅掩蔽低复杂度/简单重复序列，不掩蔽散在重复序列。
-div：仅掩蔽与共识序列差异大于指定百分比的重复序列。
-lib：使用自定义库（例如来自另一个物种的库）。
-cutoff：设置使用 -lib 时掩蔽重复序列的分数截止值。

-gc：使用为特定背景 GC 百分比水平计算的矩阵。
-gccalc：即使对于批处理文件/小序列，RepeatMasker 也计算 GC 含量。

-dir：将输出写入指定目录。
-gff：创建额外的基因特征查找格式输出。

（3）输出结果

RepeatMasker 会生成多个输出文件，包括：