首次引入GPT-4o!图像自动评估新基准来啦

面对层出不穷的个性化图像生成技术,一个新问题摆在眼前:

缺乏统一标准来衡量这些生成的图片是否符合人们的喜好

对此,来自清华、西交大、伊利诺伊厄巴纳-香槟分校、中科院、旷视的研究人员共同推出了一项新基准D】reamBench++

图片

通过收集不同的图像和提示,团队利用GPT-4o实现了符合人类偏好的自动评估

图片

简单来说,通过精心设计prompt以及引入思维链提示,团队让GPT-4o在图像评估过程中学会了像人类一样思考,并展现其思考过程。

为了测试效果,团队以7名专业人类标注员的打分为基准,对7种不同的图像生成方法进行了评估。

结果显示DreamBench++与人类评价高度一致

更多细节接下来一起瞅瞅~

什么是DreamBench++?

DreamBench++是一个全新的评估工具,它在个性化图像评估领域实现了两项关键技术突破

  • 引入支持多模态的GPT-4o,同时实现与人类偏好的深度对齐以及自动化评估

  • 推出了一个更为全面和多元化的数据集

与人类对齐的自动化评估

尽管GPT-4o支持多模态输入,但在评估图像中的细微差异时面临挑战。

在评价不同方法的个性化效果时,研究人员选择直接打分而非对比,因为对比可能会受到不同方法生成的图像顺序的影响,而且两两对比需要更长的标注时间。

为了确保评估的准确性和一致性,研究人员设计了包含以下要素的prompt

  • 任务描述,明确评估的目标和要求。
  • 评分标准解释,详细说明评估的依据。
  • 评分范围定义,设定评分的量化标准。
  • 格式规范,确保评分的统一性和可比性。

评分规则涵盖了形状、颜色、纹理以及面部细节(特别针对人和动物),以全面评估图像的个性化效果。

图片

最后,为了收集无偏的人类偏好数据,研究团队招募了7名经过专业培训、充分理解个性化任务的人类标注员。他们的标注结果被用作人类打分的基准,以确保评估结果的客观性和可靠性。

更全面的个性化数据集

为了确保评估过程的公正性和无歧视性,DreamBench++的研究人员构建了一个新的个性化数据集

这一数据集的构建过程涵盖了以下几个关键步骤

  1. 获取主题关键词:团队挑选以及生成了一系列可用于个性化生成的主体名称,如猫、钟表、男人等,共200个关键词,分为物体(objects)、活物(living objects),以及风格化图片(style)三种类型
  2. 图片收集:收集来源包含Unsplash, Rawpixel和Google Image Search。接着,从这些图片中挑选了背景干净、主体占比大的图片,以确保图像的清晰度和识别度。
  3. prompt生成:引导GPT-4o生成不同复杂程度的prompt。这些prompt的复杂性与生成任务的难度相对应,即越复杂的prompt对应越具有挑战性的生成任务。

图片

实验结果

在DreamBench++平台上,研究团队对7种不同的图像生成方法进行了评估。

这些方法涵盖了基于训练的、无需训练的,以及基于多模态大语言模型(MLLM)的多种方案。

图片

评估结果显示:

图像相似性方面,DINO-I和CLIP-I(现有的图像自动评估指标)的评分往往高于人类的评价

而在文本遵循方面,CLIP-T的评分则相对较低。

相比之下,GPT-4o在这两方面的评分均更接近人类的打分。

团队推测上述结果背后的原因是,GPT-4o和人类评价者都会综合考虑多个视觉元素,如形状、轮廓、纹理,以及人或动物的面部细节等,最终给出一个综合性的评分。

这种评价方式更符合人类的直觉和偏好,因为它不仅仅关注单一的方面,而是全面地评估图像的各个方面。

此外,团队还对不同图像生成方法在DreamBench++上的生成结果进行了可视化展示

图片

在评估图像生成结果的保持主体情况时,DreamBench++与人类评估者达到了**79.64%**的一致性。

遵循文本指令生成图像的能力方面,DreamBench++的一致性高达93.18%

从数据来看,DreamBench++的人类一致性比DINO score高出54.1%,比CLIP score高出50.7%

图片

这也侧面说明,通过设计prompt,能够让GPT-4o较为准确地捕捉和反映人类的审美和偏好。

另外,Dreambench++的数据集多样性更高,与DreamBench相比,finetune-based方法在DreamBench++上的表现会下降。

图片

团队推测这可能是因为他们在DreamBench上调整了参数,而DreamBench的种类并不全面。

同时,Emu2在非自然或复杂图像上的表现也会下降。

图片

这些都说明DreamBench++更全面的数据集暴露了已有的个性化方法中的新问题

目前相关论文及数据集已公开,感兴趣可以进一步了解。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值