本文是LLM系列文章,针对《EFUF: Efficient Fine-grained Unlearning Framework for Mitigating
Hallucinations in Multimodal Large Language Models》的翻译。
摘要
在过去的几年里,多模态大型语言模型(MLLMs)引起了越来越多的关注,但它们仍然可能生成包括相应图像中不存在的对象的描述,这种现象被称为对象幻觉。为了消除幻觉,现有的方法手动注释有幻觉和没有幻觉的配对响应,然后使用各种对齐算法来提高图像和文本之间的对齐能力。然而,它们不仅在微调阶段需要大量的计算资源,而且还需要昂贵的人工注释来构建对齐算法所需的配对数据。为了解决这些问题,我们借用了遗忘的思想,提出了一种高效的细粒度遗忘框架(EFUF),它可以消除幻觉,而不需要配对数据。大量实验表明,我们的方法在保持生成质量的同时,持续减少了幻觉,计算开销适中。我们的代码和数据集将公开。
1 引言
2 相关工作
3 初步实验
4 多模态幻觉缓解
5 实验
6 结果与分析
7 结论
在本文中,我们发现文本图像相似性有助于识别多模态幻觉,并因此提出了一种新的遗忘策略来减轻MLLM中的幻觉。具体来说,我们首先利用CLIP相似