多模态对话中的响应时机估计与情感机器人的合作对话引导
在多模态对话研究领域,有两个重要的研究方向值得关注,一是多模态对话响应时机估计,二是利用多模态情感机器人引发合作说服性对话。
多模态对话响应时机估计
在对话中,准确估计响应时机至关重要。以往研究表明,对话行为(DA)是表述话语意图的一种方式,过去的话语有助于预测当前话语的DA。例如,回答话语往往跟随问题出现。许多研究尝试在DA分类中融入上下文信息,如相邻话语间的依赖关系、连续话语间的依赖关系以及主题信息。
多模态响应时机网络
提出的响应时机估计模型由推理LSTM和对话上下文编码器组成。与传统模型不同,该模型通过对话上下文编码器编码系统响应的意图,而不是使用响应编码器。此外,此模型还引入了视觉信息,研究了面部表情、注视和面部朝向等关键视觉特征的有效性。
- 推理LSTM :以从用户话语中获取的声学、语言和视觉特征作为输入,逐步估计系统是否应在下一个时间步开始发言。其输出 $y_t$ 的计算公式如下:
- $[h_t; c_t] = LSTM_{inf} ([x_t; h_c], [h_{t - 1}; c_{t - 1}])$
- $y_t = \sigma(W_hh_t + b_t)$
其中,$LSTM_{inf} (·)$ 表示LSTM的处理过程,$\sigma(·)$ 是Sigmoid函数,$h_c$ 是下一个系统响应意图的表示,本方法从对话上下文编码器获取 $h_c$。$x_t$ 由声学、语言和视觉特征 $a_t$、$l_t$ 和 $v_t$ 组成,$y_t$ 是取值范围在0到1之间的标量值,被视为下一次开始发言的概率,推理过程中基
超级会员免费看
订阅专栏 解锁全文

29

被折叠的 条评论
为什么被折叠?



