Dorado开源项目安装与配置指南
dorado Oxford Nanopore's Basecaller 项目地址: https://gitcode.com/gh_mirrors/dor/dorado
1. 项目基础介绍
Dorado 是一个由 Oxford Nanopore Technologies 开发的高性能、易用的开源 basecaller。Basecaller 是一种用于分析 Oxford Nanopore 测序数据的软件工具,它可以将原始的测序信号转换为碱基序列。Dorado 支持多种功能,包括自动硬件检测、Duplex basecalling、barcode 分类等。项目主要使用 C++ 编程语言,并基于 PyTorch 的 C++ API,libtorch 进行开发。
2. 项目使用的关键技术和框架
- libtorch: Dorado 使用 libtorch,这是 PyTorch 的 C++ API,允许开发者直接在 C++ 环境中使用 PyTorch 的功能和模型。
- CUDA: 项目利用 CUDA 技术进行 GPU 加速,以实现高效的数据处理能力。
- Metal: 对于支持 Metal 的 Apple Silicon,Dorado 使用 Metal 进行加速。
- 自动模型选择: Dorado 能够自动选择合适的 basecalling 模型,并根据输入数据类型(如 POD5 或 fast5)调整其行为。
3. 项目安装和配置
准备工作
在开始安装之前,请确保您的系统满足以下最低要求:
- 操作系统: 根据您的硬件平台选择相应的操作系统版本。
- GPU/CPU: 对于 Linux 和 Windows,需要具备至少 8 GB VRAM 的 NVIDIA GPU(Pascal 架构或更高,但不包括 P100/GP100)。对于 Apple Silicon,建议使用具有至少 16 GB 统一内存的系统。
- 驱动程序: 确保安装了与 GPU 兼容的 CUDA 驱动程序。
- 依赖项: 安装编译器和相关依赖项,具体可参考项目 README 文档。
安装步骤
-
下载: 根据您的操作系统和架构,从项目的发布页面下载相应的预编译版本。
-
解压: 将下载的
.tar.gz
或.zip
归档文件解压到您选择的目录。 -
环境变量: 将解压目录中的
bin
路径添加到您的系统环境变量PATH
中,或者在命令行中使用完整路径调用 Dorado。 -
运行: 使用以下命令运行 Dorado:
dorado basecaller hac pod5s/ > calls.bam
这里,
hac
是一个 basecalling 模型,pod5s/
是包含 POD5 文件的目录。输出将被写入calls.bam
文件。 -
模型下载: 如果需要,Dorado 将自动下载所需的 basecalling 模型。
-
硬件适配: 如果您的系统中有多个 GPU,Dorado 将自动在所有可用的 GPU 上运行。如果您的 GPU 集群异构,可以使用
--device
标志来选择特定的 GPU。 -
性能优化: 为了获得最佳性能,请确保输入数据为 POD5 格式,并根据上述提到的性能提示进行配置。
请遵循以上步骤安装和配置 Dorado。如果在安装或使用过程中遇到问题,可以查阅项目文档或通过 GitHub 上的 issue 跟进。
dorado Oxford Nanopore's Basecaller 项目地址: https://gitcode.com/gh_mirrors/dor/dorado
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考