SALMONN:赋予大型语言模型听觉能力
项目介绍
SALMONN(Speech Audio Language Music Open Neural Network)是一种大型语言模型(LLM),它能够接受语音、音频事件和音乐输入。由清华大学电子工程系与字节跳动共同研发,SALMONN不仅限于单一的语音或音频事件输入,而是能够感知和理解各种音频输入,从而获得如多语言语音识别与翻译、音频-语音协同推理等新兴能力。这相当于为LLM“赋予耳朵”,使其具备认知听力能力,向具有听觉功能的人工通用智能迈进了一步。
项目技术分析
SALMONN的核心架构包括一个窗口级别的Q-Former作为连接模块,用于融合Whisper语音编码器与BEATs音频编码器的输出,生成增强的音频标记,与LLM输入空间对齐。LoRA适配器则将增强的LLM输入空间与其输出空间对齐。文本提示用于指导SALMONN针对一般音频输入回答开放式问题,并以LLM文本响应的形式输出答案。
SALMONN-13B v1版本的训练环境要求Python版本为3.9.17,并可通过pip安装必要的依赖包。模型训练和推理过程中,需下载Whisper大型模型、Fine-tuned BEATs_iter3+ (AS2M)等预训练模型,以及vicuna 13B v1.1模型作为基础。
项目技术应用场景
SALMONN的应用场景非常广泛,它能够处理传统的语音识别和音频标注任务,还能通过LLM的通用知识和认知能力,实现认知导向的音频感知,大大提升了模型的通用性和任务的丰富性。此外,SALMONN能够遵循文本命令,甚至能够以较高的准确度响应口头命令。这种能力是通过仅基于文本命令的训练数据获得的,因此听懂口头命令也是一种跨模态的涌现能力。
项目特点
以下是SALMONN项目的几个主要特点:
-
多模态输入处理:SALMONN能够处理包括语音、音频事件和音乐在内的多种音频输入,提供了更加全面的音频理解能力。
-
认知音频感知:通过LLM的通用知识和认知能力,SALMONN能够实现对音频的认知感知,而不仅仅是简单的识别和标注。
-
跨模态涌现能力:SALMONN能够遵循文本命令,甚至能够理解和响应口头命令,这种能力是在训练过程中自然涌现的。
-
通用性和灵活性:SALMONN的设计使其能够适应多种不同的音频处理任务,具有良好的通用性和灵活性。
-
开源共享:SALMONN的所有代码和数据集都已开源,便于研究人员和开发者使用和进一步研究。
通过上述特点,SALMONN为大型语言模型领域带来了新的视角和方法,为未来的研究和应用提供了无限可能。如果您对音频处理和大型语言模型感兴趣,SALMONN绝对值得一试。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考