【论文阅读】RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_61222152/article/details/146133825

论文地址：链接

github地址：链接

Accepted by EMNLP’24
在这里插入图片描述

1.论文背景与动机

增强医学多模型大模型（Med-LVLMs）：尽管医学多模型大模型性能已经表现得的很不错，但是它们仍然容易产生偏离事实信息的回复，从而可能导致不正确的医学诊断，这种现象称作“幻觉”，在关键的医疗应用中，需要加强机制来确保事实的一致性。
检索增强生成（RAG）的挑战：直接将RAG策略用在医学多模型大模型上面临挑战，检索上下文过多或者是不足，或者过度依赖检索的信息，都会影响模型生成结果的准确性。

问题描述：医学多模型大模型事实性困难面临着挑战，尽管RAG可以改进其表现，但是仍然面临以下的问题。

提出的方法：主要贡献在于RULE引入了一种创新方法来增强基于检索的Med-LVLM。其核心贡献包括：
- 通过可证明的校准参考上下文的选择来控制事实风险
- 通过精心策划的偏好数据集进行偏好微调来平衡模型的知识和检索上下文
效果提升：在三个数据集上展示了 RULE 在医疗 VQA 和报告生成任务中的有效性，事实准确率平均提高了 47.4%。
提供代码和基准测试。

在这里插入图片描述

图 2：RULE 框架由两个主要部分组成： (1) 通过校准选择 k 来控制事实风险的策略；(2) 知识检索平衡调整。在调整阶段，首先从样本中构建一个偏好数据集，在这些样本中，模型由于过度依赖检索到的上下文而出现错误。随后，我们通过偏好优化，利用该数据集对 Med-LVLM 进行微调。

（1）检索上下文优化

（2）通过校准检索语境选择进行事实性风险控制

（3）知识平衡偏好微调

提出了知识平衡偏好微调策略减轻过度依赖检索上下文和增强在医学生成的事实性。
构造偏好数据集，将模型本来回答正确但是因为过度依赖检索导致模型回答错误的数据找出来，采用 Direct Preference Optimization（DPO）方法进行训练。
微调后的模型在生成医学内容时，能够更好地融合检索知识和模型固有知识。