AAAI 2024 | 清华大学人机语音交互实验室的3篇录用论文分享

清华大学人机语音交互实验室的三篇论文在AAAI2024上被录用,涉及大语言模型驱动的语音情感描述、强化学习驱动的多样化舞蹈生成和图神经网络标定。这些研究强调了自然语言处理在情感表达、动作生成和模型精度提升方面的应用。

分享3篇清华大学人机语音交互实验室(THUHCSI) 在AAAI 2024上被录用的论文,本次被录用的3篇论文涉及基于大语言模型(LLM)的语音情感描述生成基于强化学习(RL)的多样化舞蹈动作生成基于节点相似度的图神经网络标定等多个研究领域。论文工作紧扣产学研,合作伙伴包括腾讯AI Lab、香港中文大学等。

01 Paper

SECap: Speech Emotion Captioning with Large Language Model

作者:Yaoxun Xu, Hangting Chen, Jianwei Yu, Qiaochu Huang, Zhiyong Wu, Shixiong Zhang, Guangzhi Li, Yi Luo, Rongzhi Gu

合作单位:腾讯 AI Lab

论文主要创新点:语音情感在人类交流中至关重要,被广泛应用于语音合成和自然语言理解等领域。之前的大多数研究,如语音情感识别,主要将语音情感划分为某一个固定的类别。然而,人类语音中表达的情感往往是复杂的,将其归入预定义的类别可能不足以充分表达语音情感。而通过自然语言直接描述语音情绪可能是更有效的方法。本文提出了基于大语言模型的语音情感描述生成(Speech Emotion Captioning)框架SECap,旨在使用自然语言有效地描述语音情感。SECap使用HuBERT作为音频编码器(Audio Encoder),通过具有强大语言理解和生成能力的大语言模型LLAMA作为文本生成器(Text Decoder),并使用Q-Former作为桥接网络(Bridge-Net)将两个模态进行连接。为了更好地给LLAMA提供和语音情感更相关的特征,本文使用互信息将与情感相关的语音特征和语音

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值