Moshi：实时对话的语音-文本基础模型-优快云博客

Moshi：实时对话的语音-文本基础模型

moshi 项目地址: https://gitcode.com/gh_mirrors/mos/moshi

在现代人工智能技术中，实时对话系统正变得越来越重要。Moshi 是一个创新的实时对话框架，融合了最先进的语音-文本基础模型技术。以下是对这个项目的详细介绍。

项目介绍

Moshi 是一个基于深度学习的实时对话系统框架，它集成了全双工（full-duplex）功能，能够同时处理用户的语音输入和系统的语音输出。Moshi 利用 Mimi，一种先进的流式神经网络音频编解码器，以极低的延迟和带宽对音频进行处理，同时保持高水准的性能。

项目技术分析

Moshi 的核心是 Mimi 编解码器。Mimi 处理 24 kHz 的音频，将其转换为 12.5 Hz 的表示，带宽仅为 1.1 kbps，且完全以流式方式进行（帧大小为 80ms），其性能优于非流式的编解码器，如 SpeechTokenizer 和 SemantiCodec。

Moshi 通过两个音频流进行工作：一个对应于 Moshi 自身的输出，另一个来自用户的输入。在推理过程中，用户的音频流来自输入，而 Moshi 的音频流则从模型输出中采样。Moshi 预测与其自身语音对应的文本标记，这大大提高了生成的质量。项目使用小型 Depth Transformer 模型特定时间步骤的代码本依赖关系，而大型 7B 参数的 Temporal Transformer 模型则处理时间依赖关系。

Moshi 的理论延迟为 160ms（Mimi 的帧大小为 80ms 加上声学延迟 80ms），在实际使用中，配备 L4 GPU 的系统可以将总延迟降低至 200ms。

项目技术应用场景

Moshi 的设计适用于各种实时对话场景，如智能助手、虚拟客服、在线教育等。以下是几个具体的应用场景：

智能客服：Moshi 可以作为智能客服系统的核心，提供流畅自然的对话体验。
在线教育：教师和学生可以通过 Moshi 进行实时互动，提高教学效果。
智能家居：集成 Moshi 的智能家居系统可以更好地理解用户的语音命令，实现更精准的控制。

项目特点

Moshi 具有以下显著特点：

低延迟：Mimi 编解码器的流式处理能力确保了极低的延迟，使得对话更加自然。
高质量生成：通过预测与自身语音对应的文本标记，Moshi 提高了生成的质量。
跨平台支持：Moshi 提供了 Python 和 Rust 两种版本，支持 PyTorch、MLX 和 Candle 等不同的后端，适用于不同的平台和设备。
灵活的模型选择：Moshi 提供了针对男声和女声的预训练模型，用户可以根据需要选择合适的模型。