SALMONN:赋予大型语言模型听觉能力

SALMONN:赋予大型语言模型听觉能力

SALMONN SALMONN: Speech Audio Language Music Open Neural Network SALMONN 项目地址: https://gitcode.com/gh_mirrors/sal/SALMONN

项目介绍

SALMONN(Speech Audio Language Music Open Neural Network)是一种大型语言模型(LLM),它能够接受语音、音频事件和音乐输入。由清华大学电子工程系与字节跳动共同研发,SALMONN不仅限于单一的语音或音频事件输入,而是能够感知和理解各种音频输入,从而获得如多语言语音识别与翻译、音频-语音协同推理等新兴能力。这相当于为LLM“赋予耳朵”,使其具备认知听力能力,向具有听觉功能的人工通用智能迈进了一步。

项目技术分析

SALMONN的核心架构包括一个窗口级别的Q-Former作为连接模块,用于融合Whisper语音编码器与BEATs音频编码器的输出,生成增强的音频标记,与LLM输入空间对齐。LoRA适配器则将增强的LLM输入空间与其输出空间对齐。文本提示用于指导SALMONN针对一般音频输入回答开放式问题,并以LLM文本响应的形式输出答案。

SALMONN-13B v1版本的训练环境要求Python版本为3.9.17,并可通过pip安装必要的依赖包。模型训练和推理过程中,需下载Whisper大型模型、Fine-tuned BEATs_iter3+ (AS2M)等预训练模型,以及vicuna 13B v1.1模型作为基础。

项目技术应用场景

SALMONN的应用场景非常广泛,它能够处理传统的语音识别和音频标注任务,还能通过LLM的通用知识和认知能力,实现认知导向的音频感知,大大提升了模型的通用性和任务的丰富性。此外,SALMONN能够遵循文本命令,甚至能够以较高的准确度响应口头命令。这种能力是通过仅基于文本命令的训练数据获得的,因此听懂口头命令也是一种跨模态的涌现能力。

项目特点

以下是SALMONN项目的几个主要特点:

  1. 多模态输入处理:SALMONN能够处理包括语音、音频事件和音乐在内的多种音频输入,提供了更加全面的音频理解能力。

  2. 认知音频感知:通过LLM的通用知识和认知能力,SALMONN能够实现对音频的认知感知,而不仅仅是简单的识别和标注。

  3. 跨模态涌现能力:SALMONN能够遵循文本命令,甚至能够理解和响应口头命令,这种能力是在训练过程中自然涌现的。

  4. 通用性和灵活性:SALMONN的设计使其能够适应多种不同的音频处理任务,具有良好的通用性和灵活性。

  5. 开源共享:SALMONN的所有代码和数据集都已开源,便于研究人员和开发者使用和进一步研究。

通过上述特点,SALMONN为大型语言模型领域带来了新的视角和方法,为未来的研究和应用提供了无限可能。如果您对音频处理和大型语言模型感兴趣,SALMONN绝对值得一试。

SALMONN SALMONN: Speech Audio Language Music Open Neural Network SALMONN 项目地址: https://gitcode.com/gh_mirrors/sal/SALMONN

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

邢郁勇Alda

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值