本文是LLM系列文章,针对《MJ-BENCH: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?》的翻译。
摘要
虽然DALLE-3和Stable Diffusion等文本到图像模型正在迅速激增,但它们经常遇到幻觉、偏见和产生不安全、低质量输出等挑战。为了有效地解决这些问题,至关重要的是根据多模态法官的反馈将这些模型与期望的行为相一致。尽管具有重要意义,但目前的多模态法官经常对其能力和局限性进行不充分的评估,这可能会导致不一致和不安全的微调结果。为了解决这个问题,我们引入了MJ-BENCH,这是一种新的基准测试,它结合了一个全面的偏好数据集来评估多模态判断,从四个关键角度为图像生成模型提供反馈:对齐、安全性、图像质量和偏误。具体来说,我们在偏好数据集的每个分解子类别上评估了各种多模态判断,包括基于CLIP的小型评分模型、开源VLM(如LLaVA家族)和闭源VLM(例如GPT-4o、Claude 3)。实验表明,闭源VLM通常提供更好的反馈,GPT-4o的平均表现优于其他裁判。与开源VLM相比,较小的评分模型可以提供更好的文本图像对齐和图像质量反馈,而VLM由于其更强的推理能力,可以提供更准确的安全性和生成偏差反馈。对反馈量表的进一步研究表明,VLM法官通常可以在自然语言(李克特量表)中提供比数值量表更准确、更稳定的反馈。值得注意的是,使用来自这些多模态法官的单独反馈对端到端微调模型进行的人工评估得出了类似的结论,进一步证实了MJ-BENCH的有效性。所有数据、代码、模型均可在