Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量123

点赞数 4

CC 4.0 BY-SA版权

分类专栏： LLM Daily Multimodal 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/148535691

LLM Daily 同时被 2 个专栏收录

1691 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

164 篇文章

订阅专栏

文章主要内容

本文提出了首个基于网络的CAPTCHA基准测试平台Open CaptchaWorld，旨在评估多模态大语言模型（MLLM）代理在动态交互场景中的视觉推理和操作能力。该基准包含20种现代CAPTCHA类型（共225个谜题），引入“CAPTCHA推理深度”指标，量化解决谜题所需的认知和运动步骤。实验表明，人类成功率达93.3%，而最先进的MLLM代理（如Openai-o3）成功率仅40%，揭示了当前模型在多步交互推理中的显著不足。文章还分析了模型失败原因，如过度分割步骤、界面理解错误等，为提升多模态代理的鲁棒性提供了方向。

创新点

首个开源CAPTCHA基准平台：专门针对多模态代理的交互推理能力，填补了现有基准对CAPTCHA任务的评估空白。
推理深度指标（CAPTCHA Reasoning Depth）：首次提出量化多步推理复杂度的任务无关指标，帮助分析模型与人类的推理差异。
真实浏览器环境测试：在闭环交互场景中测试代理，模拟真实网页环境，确保评估的现实性。
多模型对比与失败案例分析：系统评估了主流MLLM代理，揭示其在空间操作、动态控制等任务中的缺陷，为模型优化提供依据。

中文翻译

Abstract

CAPTCHA（全自动区分计算机和人类的图灵测试）一直是在实际应用中部署网页代理的关键瓶

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。