GLM-4-Voice 项目安装与配置指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00203/article/details/147084648

GLM-4-Voice 项目安装与配置指南

项目名称: GLM-4-Voice

项目简介: GLM-4-Voice 是智谱 AI 推出的端到端语音模型，能够直接理解和生成中英文语音，进行实时语音对话，并能够根据用户指令改变语音的情感、语调、语速、方言等属性。

主要编程语言: Python

GLM-4-Voice-Tokenizer: 通过在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督训练，将连续的语音输入转化为离散的 token。
GLM-4-Voice-Decoder: 基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器，将离散化的语音 token 转化为连续的语音输出。
GLM-4-Voice-9B: 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐，从而能够理解和生成离散化的语音 token。

在开始安装前，请确保您的系统中已经安装了以下依赖：

首先，克隆 GLM-4-Voice 仓库：

git clone --recurse-submodules https://github.com/THUDM/GLM-4-Voice.git
cd GLM-4-Voice

接下来，安装项目所需的依赖：

pip install -r requirements.txt

项目中有三个主要的模型文件需要下载：GLM-4-Voice-Tokenizer、GLM-4-Voice-9B 和 GLM-4-Voice-Decoder。以下是下载 GLM-4-Voice-Decoder 的步骤：

git lfs install
git clone https://huggingface.co/THUDM/glm-4-voice-decoder

如果网络条件不佳，可以手动下载模型文件，并通过 --model-path 参数指定本地路径。

启动模型服务：

python model_server.py --host localhost --model-path THUDM/glm-4-voice-9b --port 10000 --dtype bfloat16 --device cuda:0

如果需要使用 Int4 精度启动，请使用以下命令：

python model_server.py --host localhost --model-path THUDM/glm-4-voice-9b --port 10000 --dtype int4 --device cuda:0

最后，启动 Web 服务：

python web_demo.py --tokenizer-path THUDM/glm-4-voice-tokenizer --model-path THUDM/glm-4-voice-9b --flow-path ./glm-4-voice-decoder

现在，您可以通过浏览器访问 http://127.0.0.1:8888 来使用 Web Demo。

以上就是 GLM-4-Voice 项目的安装与配置指南，希望对您有所帮助。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考