视频问答中问题难度估计与神经机器翻译的创新研究
在自然语言处理领域,视频问答中的问题难度估计以及神经机器翻译一直是研究的热点。下面将详细介绍相关的研究内容和实验结果。
视频问答问题难度估计
在视频问答场景中,提出了一种新颖的问题难度估计器。其关键在于视频问答具有文本和视频的多模态输入特点。
模型架构
该估计器使用 CNN 骨干网络对视频信息进行编码,利用 RoBERTa 对文本信息进行编码。同时,借助 DiMAT 来建模从一种模态到另一种模态的定向关联。
实验结果分析
-
不同模型性能对比 :
| 模型 | DramaQA - 记忆 | | | DramaQA - 逻辑 | | | TVQA | | |
| — | — | — | — | — | — | — | — | — | — |
| | R | P | F1 | R | P | F1 | R | P | F1 |
| T (RoBERTa) | 85.32 | 83.93 | 84.61 | 77.27 | 81.32 | 78.82 | 52.91 | 59.32 | 55.92 |
| V ⊕ T | 95.86 | 95.55 | 95.67 | 84.91 | 86.33 | 85.44 | 52.65 | 60.74 | 56.41 |
| V ⊕ T ⊕ VDA ⊕ TDA | 96.46 | 96.82 | 96.64∗† | 85.93 | 87.28 | 86.55∗† | 54.01 | 61.75 | 57.62∗ |
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



