Moshi项目安装与配置指南
moshi 项目地址: https://gitcode.com/gh_mirrors/mos/moshi
1. 项目基础介绍
Moshi 是一个基于深度学习的实时对话系统,它包括一个语音-文本基础模型和一个全双工的口语对话框架。Moshi 使用 Mimi,一种最先进的流式神经网络音频编解码器。
2. 项目使用的关键技术和框架
- Mimi:一种流式神经网络音频编解码器,能够处理24 kHz音频,并将其降至12.5 Hz的表现形式,带宽为1.1 kbps。
- Transformer:项目中的深度学习模型使用了 Transformer 结构,其中包括一个小型的 Depth Transformer 来建模时间步长的代码本依赖,和一个大型的7B参数 Temporal Transformer 来建模时间依赖。
- PyTorch:项目主要使用 PyTorch 作为深度学习框架。
- Rust:生产环境中使用的编程语言,提供了 Mimi 的 Rust 实现,并提供了 Python 绑定。
3. 项目安装和配置准备工作
在开始安装之前,请确保您的系统满足以下要求:
- Python 3.10 或更高版本(推荐 Python 3.12)
- 对于特定的依赖,请检查后端目录中的要求。
- 如果使用 MLX 或 Rust 后端,可能需要安装相应的工具链。
- 对于 PyTorch 版本,需要一个显存至少为24GB的GPU。
- 对于 Rust 后端,需要一个较新版本的 Rust 工具链。
- 如果要编译 GPU 支持,需要正确安装 CUDA 和 nvcc。
安装步骤
步骤 1:安装 Python 环境
确保您的系统中安装了 Python 3.10 或更高版本。您可以通过以下命令安装:
# 安装 Python 3.12(以 Ubuntu 为例)
sudo apt update
sudo apt install software-properties-common
sudo add-apt-repository ppa:deadsnakes/ppa
sudo apt install python3.12 python3.12-venv python3.12-dev
步骤 2:创建虚拟环境并安装依赖
创建一个虚拟环境并激活它:
python3.12 -m venv myenv
source myenv/bin/activate
安装项目依赖:
pip install -U moshi
pip install -U moshi_mlx # 如果您使用的是 MLX 版本
pip install rustymimi
步骤 3:配置和运行服务
启动 Moshi 服务器:
python -m moshi.server
您可以通过浏览器访问 localhost:8998
来使用 web UI。
如果您的 GPU 在远程机器上,您可以使用 SSH 端口转发:
ssh -L 8998:localhost:8998 user@remote-machine
然后您可以在本地浏览器中访问 localhost:8998
。
步骤 4:使用客户端
要使用命令行客户端,运行以下命令:
python -m moshi.client --url URL_TO_GRADIO
将 URL_TO_GRADIO
替换为您的 Gradio 服务的 URL。
以上是 Moshi 项目的详细安装和配置指南。请确保按照上述步骤操作,以避免遇到不必要的困难。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考