本文是LLM系列文章,针对《Multimodal Large Language Models to Support Real-World Fact-Checking》的翻译。
摘要
虚假信息对现实世界构成威胁,尤其是与误导性图像相结合时。多模态大语言模型将图像理解与语言模型丰富的知识和解释能力相结合,已成为人类处理大量信息的工具。然而,它们作为协助事实核查的多模态工具的能力和局限性仍然研究不足。以下是弥合这一差距的目标。特别是,我们提出了一个系统评估当前多模态模型能力的框架,以促进现实世界的事实核查。我们的方法是无证据的,只利用这些模型的内在知识和推理能力。通过设计提取模型预测、解释和置信水平的提示,我们对模型的准确性、偏差和其他关键因素进行了详细分析。我们根据经验发现,(1)GPT-4V在各种数据集中表现出令人惊讶的性能,准确率超过80%,并能够提供令人印象深刻的解释;(2)即使有提示集成和上下文学习的帮助,开源模型的性能也明显滞后。然而,它们在记住核对过的声明和推理出被操纵的图像方面显示出潜力。我们还总结了失败的原因,这有助于制定未来改进的策略。我们的研究为利用MLLMs打击多模态错误信息提供了见解。
1 引言
2 相关工作
3 评估框架
4 实验设置
5 实验结果
6 局限性
7 结论和未来工作
我们研究了MLLMs在没有外部参考的情况下仅依靠其参数知识和推理能力来核实真实世界要求的能力。我们提出了一个评估框架,设计了各种实验来解决研究问题。我们的研究结果表明,最先进的

订阅专栏 解锁全文
427

被折叠的 条评论
为什么被折叠?



