论文解读 P2《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》

最新推荐文章于 2025-12-03 08:43:36 发布

原创

最新推荐文章于 2025-12-03 08:43:36 发布 · 1.1k 阅读

·

22

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#知识图谱 #人工智能 #计算机视觉 #深度学习 #机器学习 #学习

论文解读系列文章目录

文章目录

论文解读系列文章目录
一、图中公式什么意思？
二、“早期的基于匹配和密集嵌入相似性的方法，逐步发展到可学习的检索技术和预训练语言模型（PLM）生成技术”什么意思？
三、在从问题（Q）和图像（I）中提取初始概念后，建立两个关键映射：第一个映射将Q中解析出的对象与I中的视觉对应物关联，第二个映射将这些概念与知识库（KBs）中的相关条目关联。什么意思？
四、随后，通过这些识别出的概念节点获取一阶子知识图谱（sub-KG）中的三元组（在某些情境下如角色知识图谱为三跳路径【93】），或通过识别I和Q中的实体之间的简短知识路径来收集事实三元组。这句话什么意思，举例解释一下
五、密集检索【141】方法通常用于为给定的Q-I对检索最相关的前k条事实。此技术利用嵌入相似性将问题和视觉概念与预先简化的简洁事实句匹配，简化了检索过程，避免了复杂规则。这句话什么意思，举例解释一下？
六、检索结构通常为对称或孪生结构，以支持共享嵌入空间，而跨模态检索场景（如基于CLIP的检索）则采用非对称设计。什么意思，举例说明一下。

一、图中公式什么意思？

在这里插入图片描述
图中的公式描述了一个基于知识图谱的视觉问答（VQA）任务的概率模型：

$\Theta) = p(G_{ret}|Q, I, G; \Phi) \cdot p(A|Q, I, G_{ret}; \Theta)$

其中：

$A$ 表示答案。
$Q </$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。