SALMONN：赋予大型语言模型听觉能力

最新推荐文章于 2025-04-01 09:21:53 发布

邢郁勇Alda

最新推荐文章于 2025-04-01 09:21:53 发布

阅读量567

点赞数 25

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00021/article/details/146533648

SALMONN：赋予大型语言模型听觉能力

SALMONN SALMONN: Speech Audio Language Music Open Neural Network 项目地址: https://gitcode.com/gh_mirrors/sal/SALMONN

项目介绍

SALMONN（Speech Audio Language Music Open Neural Network）是一种大型语言模型（LLM），它能够接受语音、音频事件和音乐输入。由清华大学电子工程系与字节跳动共同研发，SALMONN不仅限于单一的语音或音频事件输入，而是能够感知和理解各种音频输入，从而获得如多语言语音识别与翻译、音频-语音协同推理等新兴能力。这相当于为LLM“赋予耳朵”，使其具备认知听力能力，向具有听觉功能的人工通用智能迈进了一步。

项目技术分析

SALMONN的核心架构包括一个窗口级别的Q-Former作为连接模块，用于融合Whisper语音编码器与BEATs音频编码器的输出，生成增强的音频标记，与LLM输入空间对齐。LoRA适配器则将增强的LLM输入空间与其输出空间对齐。文本提示用于指导SALMONN针对一般音频输入回答开放式问题，并以LLM文本响应的形式输出答案。

SALMONN-13B v1版本的训练环境要求Python版本为3.9.17，并可通过pip安装必要的依赖包。模型训练和推理过程中，需下载Whisper大型模型、Fine-tuned BEATs_iter3+ (AS2M)等预训练模型，以及vicuna 13B v1.1模型作为基础。

项目技术应用场景

SALMONN的应用场景非常广泛，它能够处理传统的语音识别和音频标注任务，还能通过LLM的通用知识和认知能力，实现认知导向的音频感知，大大提升了模型的通用性和任务的丰富性。此外，SALMONN能够遵循文本命令，甚至能够以较高的准确度响应口头命令。这种能力是通过仅基于文本命令的训练数据获得的，因此听懂口头命令也是一种跨模态的涌现能力。