本文是LLM系列文章,针对《Multimodal Large Language Models to Support Real-World Fact-Checking》的翻译。
摘要
虚假信息对现实世界构成威胁,尤其是与误导性图像相结合时。多模态大语言模型将图像理解与语言模型丰富的知识和解释能力相结合,已成为人类处理大量信息的工具。然而,它们作为协助事实核查的多模态工具的能力和局限性仍然研究不足。以下是弥合这一差距的目标。特别是,我们提出了一个系统评估当前多模态模型能力的框架,以促进现实世界的事实核查。我们的方法是无证据的,只利用这些模型的内在知识和推理能力。通过设计提取模型预测、解释和置信水平的提示,我们对模型的准确性、偏差和其他关键因素进行了详细分析。我们根据经验发现,(1)GPT-4V在各种数据集中表现出令人惊讶的性能,准确率超过80%,并能够提供令人印象深刻的解释;(2)即使有提示集成和上下文学习的帮助,开源模型的性能也明显滞后。然而,它们在记住核对过的声明和推理出被操纵的图像方面显示出潜力。我们还总结了失败的原因,这有助于制定未来改进的策略。我们的研究为利用MLLMs打击多模态错误信息提供了见解。