When Large Language Models Meet Speech: A Survey on Integration Approaches

主要内容

  1. 研究背景:大语言模型(LLMs)在自然语言处理领域取得显著进展,其与语音的融合具有广泛应用前景,但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。
  2. 集成方法
    • 基于文本的集成:通过级联集成、LLM重打分和LLM生成式错误纠正等方式,利用文本作为LLMs的输入和输出,处理语音相关任务,但存在信息损失和准确性与多样性平衡的问题。
    • 基于潜在表示的集成:使用语音编码器生成潜在表示输入LLMs,关键问题是解决语音和文本模态的序列长度差异,提出卷积下采样、CTC压缩和Q-Former等模态适应策略,训练时多采用参数高效微调(PEFT)方法。
    • 基于音频令牌的集成:分为语义令牌、声学令牌以及两者结合的应用,还介绍了将LLMs集成到语音语言模型中的方法,该集成方式在语音生成方面有优势,但存在计算资源需求大等挑战。
  3. 比较分析:对比三种集成方法的优缺点,基于潜在表示的集成集成度最高,基于文本的集成可解释性最强;文本和基于音频令牌的方法能生成语音&#x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值