
CVPR
文章平均质量分 88
smile909
这个作者很懒,什么都没留下…
展开
-
CVPR 2019 Fusion of Detected Objects in Text for Visual Question Answering
动机 上下文信息对于多模态语境的影响,以及视觉-语言信息对视觉问答的影响。 一个词的含义与它出现的上下文有系统和可预测的联系。不同的上下文概念导致了下游NLP任务的不同成功程度。包括Transformer和BERT在内的最近的神经结构显著提高了本论文包含潜在词汇提示的广泛窗口的能力。然而,同样的能力允许使用多模态语境,这可能有助于建模一般词语含义,并加深对语境中词语实例的理解。本论文研究了视觉语境对语言的影响,指出正确的视觉信息和语言信息的结合可以提高视觉问答的效果。 面临的挑战。 挑战是回答与给定原创 2021-04-17 23:25:28 · 311 阅读 · 0 评论 -
CVPR 2019 ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language
动机 现存方法的两大局限性: 视觉理解任务使用的主要策略是先基于其他大规模任务分别预训练视觉和语言模型,然后将其作为具体任务的一部分基础知识。然而,1)这种方案学习到的基础知识并不牢靠,当visiolinguistic data有限或者有偏时(biased),模型的泛化能力很差。此外,2)在单模态数据上学习的近乎完美的表征,往往忽略了与其他模态之间的联系。比如,即使狗品种分类的视觉表征是完美的,但在下游任务中模型若无法将该视觉表征与形如"小猎犬"或"牧羊人"这样的近似短语进行关联,这种完美的视觉表征也是近乎原创 2021-04-17 01:23:24 · 965 阅读 · 0 评论