MLLM-as-a-Judge
论文:https://arxiv.org/abs/2402.04788
代码:https://mllm-judge. github.io/
最近想用MLLM作为审核员自动审核数据,因此看到这篇文章,据说MLLM-as-a-Judge也是未来比较有潜力的方向
技术方案
本文主要对比了多个MLLM模型(GPT-4V、LLaVA-1.5、CogVLM、Qwen-vl-max和Gemini-pro)在三个任务上的判别结果:分别是Scoring Evaluation, Pair Comparison, and Batch Ranking.
得分估计用预测与标注的皮尔森相似度;成对比较用acc,F1得分和recall;rank用规范化莱文斯坦距离。
结论
MLLM判别器在成对比较上表现最好,接近甚至超过人类审核,但在得分预测和批量排名任务上表现较差。
自己试用Qwen-VL也发现成对比较表现较好,得分预测在训练后域内数据分类准确率较高,域外数据则失效