skani 项目使用指南
1. 项目介绍
skani 是一个用于计算 DNA 序列(如 contigs、MAGs 或基因组)的平均核苷酸同一性(ANI)和比对分数(AF)的程序。它特别适用于元基因组数据。skani 使用近似映射方法,无需进行碱基级比对,因此比基于 BLAST 的方法快得多,且准确性几乎相同。
skani 的主要特点包括:
- 准确性:对于不完整和中质量的元基因组组装基因组(MAGs),skani 提供了准确的 ANI 计算。
- 快速计算:索引/草图比 Mash 快约 3 倍,查询比 FastANI 快约 25 倍(但比 Mash 慢)。
- 高效的数据库搜索:可以在几秒钟内使用单个处理器和约 6 GB 的 RAM 查询预处理的数据库。
2. 项目快速启动
安装 skani
选项 1:从源代码构建
# 克隆仓库
git clone https://github.com/bluenote-1577/skani
cd skani
# 使用 cargo 安装
cargo install --path . --root ~/cargo
# 运行 skani
~/cargo/bin/skani dist refs/e_coli-EC590.fasta refs/e_coli-K12.fasta
选项 2:使用 Conda 安装
conda install -c bioconda skani
选项 3:使用预构建的 x86-64 Linux 静态编译二进制文件
wget https://github.com/bluenote-1577/skani/releases/download/latest/skani
chmod +x skani
./skani -h
快速启动示例
# 比较两个基因组的 ANI
skani dist genome1.fa genome2.fa
# 比较多个基因组
skani dist -t 3 -q query1.fa query2.fa -r reference1.fa reference2.fa -o all-to-all_results.txt
# 构建数据库并进行内存高效的搜索
skani sketch genomes_to_search/* -o database
skani search query1.fa query2.fa -d database
3. 应用案例和最佳实践
案例 1:设置 GTDB 原核生物基因组数据库进行搜索
skani 可以用于设置和搜索 GTDB(Genome Taxonomy Database)原核生物基因组数据库。通过预处理数据库,可以在几秒钟内查询数千个基因组。
案例 2:对整个组装进行分类
使用 skani,可以在不到 2 分钟的时间内对超过 85,000 个基因组进行分类。这对于大规模的基因组分类任务非常有用。
案例 3:使用 skani 进行 MAGs 的菌株级聚类
skani 可以用于对 MAGs(Metagenome-Assembled Genomes)进行菌株级聚类,相比于 Mash 和 FastANI,skani 在处理不完整基因组时表现更好。
4. 典型生态项目
相关项目
- Mash:一个用于快速基因组距离计算的工具,skani 在速度和准确性上有所改进。
- FastANI:另一个用于快速 ANI 计算的工具,skani 在速度上更快。
- GTDB:基因组分类数据库,skani 可以与 GTDB 结合使用,进行高效的基因组分类和搜索。
通过这些相关项目,skani 可以更好地融入现有的基因组分析生态系统,提供更高效和准确的基因组比较和分类服务。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考