MLLM-as-a-Judge

MLLM-as-a-Judge
论文:https://arxiv.org/abs/2402.04788
代码:https://mllm-judge. github.io/

最近想用MLLM作为审核员自动审核数据,因此看到这篇文章,据说MLLM-as-a-Judge也是未来比较有潜力的方向

技术方案

本文主要对比了多个MLLM模型(GPT-4V、LLaVA-1.5、CogVLM、Qwen-vl-max和Gemini-pro)在三个任务上的判别结果:分别是Scoring Evaluation, Pair Comparison, and Batch Ranking.
得分估计用预测与标注的皮尔森相似度;成对比较用acc,F1得分和recall;rank用规范化莱文斯坦距离。
请添加图片描述

请添加图片描述

结论

MLLM判别器在成对比较上表现最好,接近甚至超过人类审核,但在得分预测和批量排名任务上表现较差。
自己试用Qwen-VL也发现成对比较表现较好,得分预测在训练后域内数据分类准确率较高,域外数据则失效
请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值