AAAI 2024 | 清华大学人机语音交互实验室的3篇录用论文分享

最新推荐文章于 2025-12-03 14:45:52 发布

原创

最新推荐文章于 2025-12-03 14:45:52 发布 · 1.4k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#交互 #语音识别 #人工智能

清华大学人机语音交互实验室的三篇论文在AAAI2024上被录用，涉及大语言模型驱动的语音情感描述、强化学习驱动的多样化舞蹈生成和图神经网络标定。这些研究强调了自然语言处理在情感表达、动作生成和模型精度提升方面的应用。

分享3篇清华大学人机语音交互实验室（THUHCSI）在AAAI 2024上被录用的论文，本次被录用的3篇论文涉及基于大语言模型（LLM）的语音情感描述生成、基于强化学习（RL）的多样化舞蹈动作生成、基于节点相似度的图神经网络标定等多个研究领域。论文工作紧扣产学研，合作伙伴包括腾讯AI Lab、香港中文大学等。

01 Paper

SECap: Speech Emotion Captioning with Large Language Model

作者：Yaoxun Xu, Hangting Chen, Jianwei Yu, Qiaochu Huang, Zhiyong Wu, Shixiong Zhang, Guangzhi Li, Yi Luo, Rongzhi Gu

合作单位：腾讯 AI Lab

论文主要创新点：语音情感在人类交流中至关重要，被广泛应用于语音合成和自然语言理解等领域。之前的大多数研究，如语音情感识别，主要将语音情感划分为某一个固定的类别。然而，人类语音中表达的情感往往是复杂的，将其归入预定义的类别可能不足以充分表达语音情感。而通过自然语言直接描述语音情绪可能是更有效的方法。本文提出了基于大语言模型的语音情感描述生成（Speech Emotion Captioning）框架SECap，旨在使用自然语言有效地描述语音情感。SECap使用HuBERT作为音频编码器（Audio Encoder），通过具有强大语言理解和生成能力的大语言模型LLAMA作为文本生成器（Text Decoder），并使用Q-Former作为桥接网络（Bridge-Net）将两个模态进行连接。为了更好地给LLAMA提供和语音情感更相关的特征，本文使用互信息将与情感相关的语音特征和语音

最低0.47元/天解锁文章