WACV 2020 BERT Representations for Video Question Answering
动机
视觉问答(VQA)的重要性。
自动回答问题被认为是智能系统的最高目标之一。为了实现这一目标,视觉问答(VQA)旨在通过提取语言内容(即问题)和视觉内容(即图像)中包含的语义信息来回答关于图像的问题。一种典型的VQA系统将图像和问题对作为输入,将它们的视觉和语言特征编码为高维向量,并使用attention机制对它们进行处理以预测正确答案。
目前VQA框架的局限性。
近几年来,VQA引起了人们的广泛关注,并取得了显著的进展。视觉问答(VQA)旨在回答关于图像或视频的视觉内容的问题。然而,目前的框架
原创
2021-04-15 22:57:49 ·
10462 阅读 ·
0 评论