GLM-4-Voice 项目安装与配置指南
GLM-4-Voice GLM-4-Voice | 端到端中英语音对话模型 项目地址: https://gitcode.com/gh_mirrors/gl/GLM-4-Voice
1. 项目基础介绍
项目名称: GLM-4-Voice
项目简介: GLM-4-Voice 是智谱 AI 推出的端到端语音模型,能够直接理解和生成中英文语音,进行实时语音对话,并能够根据用户指令改变语音的情感、语调、语速、方言等属性。
主要编程语言: Python
2. 项目使用的关键技术和框架
- GLM-4-Voice-Tokenizer: 通过在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督训练,将连续的语音输入转化为离散的 token。
- GLM-4-Voice-Decoder: 基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器,将离散化的语音 token 转化为连续的语音输出。
- GLM-4-Voice-9B: 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐,从而能够理解和生成离散化的语音 token。
3. 项目安装和配置的准备工作
在开始安装前,请确保您的系统中已经安装了以下依赖:
- Python 3.6 或更高版本
- pip
- git
- git-lfs (用于下载大文件)
- CUDA (如果使用 GPU)
4. 详细安装步骤
步骤 1: 克隆仓库
首先,克隆 GLM-4-Voice 仓库:
git clone --recurse-submodules https://github.com/THUDM/GLM-4-Voice.git
cd GLM-4-Voice
步骤 2: 安装依赖
接下来,安装项目所需的依赖:
pip install -r requirements.txt
步骤 3: 下载模型
项目中有三个主要的模型文件需要下载:GLM-4-Voice-Tokenizer、GLM-4-Voice-9B 和 GLM-4-Voice-Decoder。以下是下载 GLM-4-Voice-Decoder 的步骤:
git lfs install
git clone https://huggingface.co/THUDM/glm-4-voice-decoder
如果网络条件不佳,可以手动下载模型文件,并通过 --model-path
参数指定本地路径。
步骤 4: 启动模型服务
启动模型服务:
python model_server.py --host localhost --model-path THUDM/glm-4-voice-9b --port 10000 --dtype bfloat16 --device cuda:0
如果需要使用 Int4 精度启动,请使用以下命令:
python model_server.py --host localhost --model-path THUDM/glm-4-voice-9b --port 10000 --dtype int4 --device cuda:0
步骤 5: 启动 Web 服务
最后,启动 Web 服务:
python web_demo.py --tokenizer-path THUDM/glm-4-voice-tokenizer --model-path THUDM/glm-4-voice-9b --flow-path ./glm-4-voice-decoder
现在,您可以通过浏览器访问 http://127.0.0.1:8888
来使用 Web Demo。
以上就是 GLM-4-Voice 项目的安装与配置指南,希望对您有所帮助。
GLM-4-Voice GLM-4-Voice | 端到端中英语音对话模型 项目地址: https://gitcode.com/gh_mirrors/gl/GLM-4-Voice
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考