14、多模态对话中的响应时机估计与情感机器人的合作对话引导

最新推荐文章于 2025-12-16 15:02:17 发布

原创最新推荐文章于 2025-12-16 15:02:17 发布 · 36 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#多模态对话 # 响应时机估计 # 情感机器人

对话AI：自然交互新纪元专栏收录该内容

31 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

多模态对话中的响应时机估计与情感机器人的合作对话引导

在多模态对话研究领域，有两个重要的研究方向值得关注，一是多模态对话响应时机估计，二是利用多模态情感机器人引发合作说服性对话。

多模态对话响应时机估计

在对话中，准确估计响应时机至关重要。以往研究表明，对话行为（DA）是表述话语意图的一种方式，过去的话语有助于预测当前话语的DA。例如，回答话语往往跟随问题出现。许多研究尝试在DA分类中融入上下文信息，如相邻话语间的依赖关系、连续话语间的依赖关系以及主题信息。

多模态响应时机网络

提出的响应时机估计模型由推理LSTM和对话上下文编码器组成。与传统模型不同，该模型通过对话上下文编码器编码系统响应的意图，而不是使用响应编码器。此外，此模型还引入了视觉信息，研究了面部表情、注视和面部朝向等关键视觉特征的有效性。
- 推理LSTM ：以从用户话语中获取的声学、语言和视觉特征作为输入，逐步估计系统是否应在下一个时间步开始发言。其输出 $y_t$ 的计算公式如下：
- $[h_t; c_t] = LSTM_{inf} ([x_t; h_c], [h_{t - 1}; c_{t - 1}])$
- $y_t = \sigma(W_hh_t + b_t)$
其中，$LSTM_{inf} (·)$ 表示LSTM的处理过程，$\sigma(·)$ 是Sigmoid函数，$h_c$ 是下一个系统响应意图的表示，本方法从对话上下文编码器获取 $h_c$。$x_t$ 由声学、语言和视觉特征 $a_t$、$l_t$ 和 $v_t$ 组成，$y_t$ 是取值范围在0到1之间的标量值，被视为下一次开始发言的概率，

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。