Modality-Aware Integration with Large Language Models for Knowledge-based Visual Question Answering
其中,KVQA(基于知识的视觉问答)旨在根据外部知识为相关图像的问题提供合适的答案,例如知识图谱等。根据图像标题,基于你对图像的全面理解,构建一个高质量的场景图,其中包含尽可能多的关于所提及实体的有意义细节,以三元组(头部实体,关系,尾部实体)的形式表示。如下图(a)(b)所示。前面,汽车),(汽车,颜色为,蓝色),仅返回三元组,不包含其他内容。这里的“介质”指的是两个图中都有的实体(比如“乘客”、“外套”和“樱花”)。,其中包含充足的图像外的对M的文本描述、属性、类别等信息,这使得推理更具知识性。
原创
2024-12-03 22:02:56 ·
741 阅读 ·
0 评论