主要内容
- 研究背景:大语言模型(LLMs)在自然语言处理领域取得显著进展,其与语音的融合具有广泛应用前景,但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。
- 集成方法
- 基于文本的集成:通过级联集成、LLM重打分和LLM生成式错误纠正等方式,利用文本作为LLMs的输入和输出,处理语音相关任务,但存在信息损失和准确性与多样性平衡的问题。
- 基于潜在表示的集成:使用语音编码器生成潜在表示输入LLMs,关键问题是解决语音和文本模态的序列长度差异,提出卷积下采样、CTC压缩和Q-Former等模态适应策略,训练时多采用参数高效微调(PEFT)方法。
- 基于音频令牌的集成:分为语义令牌、声学令牌以及两者结合的应用,还介绍了将LLMs集成到语音语言模型中的方法,该集成方式在语音生成方面有优势,但存在计算资源需求大等挑战。
- 比较分析:对比三种集成方法的优缺点,基于潜在表示的集成集成度最高,基于文本的集成可解释性最强;文本和基于音频令牌的方法能生成语音&#x