SALMONN项目安装与配置指南
1. 项目基础介绍
SALMONN(Speech Audio Language Music Open Neural Network)是一个开源项目,由清华大学电子工程系与字节跳动联合开发。该项目旨在通过赋予大型语言模型(LLM)听觉能力,实现对语音、音频事件和音乐的感知与理解。SALMONN可以被看作是为LLM“安装”了“耳朵”和认知听力能力,是迈向具有听觉功能的通用人工智能的一大步。
该项目主要使用Python编程语言。
2. 项目使用的关键技术和框架
- Whisper Speech Encoder:用于语音编码的模块。
- BEATs Audio Encoder:用于音频编码的模块。
- Q-Former:窗口级连接模块,用于融合来自Whisper和BEATs的输出。
- LoRA Adaptor:用于对齐增强的LLM输入空间和输出空间。
- vicuna 13B:一种大型语言模型,用于文本生成和理解。
3. 项目安装和配置的准备工作及详细步骤
准备工作
- Python环境:确保你的系统中安装了Python 3.9.17版本。如果未安装,请从官方网站下载并安装。
- pip工具:Python的包管理器,用于安装项目所需的依赖。
- 硬件要求:建议使用配备A100-SXM-80GB GPU的机器以获得最佳性能。
安装步骤
-
克隆项目仓库:
git clone https://github.com/bytedance/SALMONN.git cd SALMONN
-
安装项目依赖:
pip install -r requirements.txt
-
下载所需的预训练模型和编码器:
- Whisper large v2模型
- Fine-tuned BEATs_iter3+ (AS2M) (cpt2)
- vicuna 13B v1.1模型
请将下载的文件分别放置到项目指定的
whisper_path
、beats_path
和llama_path
路径下。 -
配置训练或推理环境:
-
训练:运行以下命令开始训练模型:
python3 train.py --cfg-path configs/config.yaml
-
命令行推理:运行以下命令进行命令行推理:
python3 cli_inference.py --cfg-path configs/decode_config.yaml
-
Web演示:运行以下命令启动Web演示:
python3 web_demo.py --cfg-path configs/decode_config.yaml
-
请确保在执行训练或推理之前,所有必要的模型和配置都已经正确下载和设置。
以上就是SALMONN项目的安装和配置指南。祝你使用愉快!
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考