论文解读系列文章目录
文章目录
- 论文解读系列文章目录
- 一、图中公式什么意思?
- 二、“早期的基于匹配和密集嵌入相似性的方法,逐步发展到可学习的检索技术和预训练语言模型(PLM)生成技术”什么意思?
- 三、在从问题(Q)和图像(I)中提取初始概念后,建立两个关键映射:第一个映射将Q中解析出的对象与I中的视觉对应物关联,第二个映射将这些概念与知识库(KBs)中的相关条目关联。 什么意思?
- 四、随后,通过这些识别出的概念节点获取一阶子知识图谱(sub-KG)中的三元组(在某些情境下如角色知识图谱为三跳路径【93】),或通过识别I和Q中的实体之间的简短知识路径来收集事实三元组。这句话什么意思,举例解释一下
- 五、密集检索【141】方法通常用于为给定的Q-I对检索最相关的前k条事实。此技术利用嵌入相似性将问题和视觉概念与预先简化的简洁事实句匹配,简化了检索过程,避免了复杂规则。这句话什么意思,举例解释一下?
- 六、检索结构通常为对称或孪生结构,以支持共享嵌入空间,而跨模态检索场景(如基于CLIP的检索)则采用非对称设计。 什么意思,举例说明一下。
一、图中公式什么意思?
图中的公式描述了一个基于知识图谱的视觉问答(VQA)任务的概率模型:
p ( A ∣ Q , I , G , Θ ) = p ( G r e t ∣ Q , I , G ; Φ ) ⋅ p ( A ∣ Q , I , G r e t ; Θ ) p(A|Q, I, G, \Theta) = p(G_{ret}|Q, I, G; \Phi) \cdot p(A|Q, I, G_{ret}; \Theta) p(A∣Q,I,G,Θ)=p(Gret∣Q,I,G;Φ)⋅p(A∣Q,I,Gret;Θ)
其中:
- A A A 表示答案。
- Q Q