分享3篇清华大学人机语音交互实验室(THUHCSI) 在AAAI 2024上被录用的论文,本次被录用的3篇论文涉及基于大语言模型(LLM)的语音情感描述生成、基于强化学习(RL)的多样化舞蹈动作生成、基于节点相似度的图神经网络标定等多个研究领域。论文工作紧扣产学研,合作伙伴包括腾讯AI Lab、香港中文大学等。
01 Paper
SECap: Speech Emotion Captioning with Large Language Model
作者:Yaoxun Xu, Hangting Chen, Jianwei Yu, Qiaochu Huang, Zhiyong Wu, Shixiong Zhang, Guangzhi Li, Yi Luo, Rongzhi Gu
合作单位:腾讯 AI Lab
论文主要创新点:语音情感在人类交流中至关重要,被广泛应用于语音合成和自然语言理解等领域。之前的大多数研究,如语音情感识别,主要将语音情感划分为某一个固定的类别。然而,人类语音中表达的情感往往是复杂的,将其归入预定义的类别可能不足以充分表达语音情感。而通过自然语言直接描述语音情绪可能是更有效的方法。本文提出了基于大语言模型的语音情感描述生成(Speech Emotion Captioning)框架SECap,旨在使用自然语言有效地描述语音情感。SECap使用HuBERT作为音频编码器(Audio Encoder),通过具有强大语言理解和生成能力的大语言模型LLAMA作为文本生成器(Text Decoder),并使用Q-Former作为桥接网络(Bridge-Net)将两个模态进行连接。为了更好地给LLAMA提供和语音情感更相关的特征,本文使用互信息将与情感相关的语音特征和语音

清华大学人机语音交互实验室的三篇论文在AAAI2024上被录用,涉及大语言模型驱动的语音情感描述、强化学习驱动的多样化舞蹈生成和图神经网络标定。这些研究强调了自然语言处理在情感表达、动作生成和模型精度提升方面的应用。
最低0.47元/天 解锁文章
1138

被折叠的 条评论
为什么被折叠?



