MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models

UnknownBody

于 2024-06-27 10:28:28 发布

阅读量152

点赞数 4

分类专栏： LLM Daily LLM Evaluation 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/139994676

版权

LLM Daily 同时被 2 个专栏收录

1271 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

85 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文是LLM系列文章，针对《MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models》的翻译。

MANGO：评估大型语言模型映射和导航能力的基准

摘要
1 引言
2 MANGO：基于文本的地图和导航基准
3 实验
4 相关工作
5 结论

摘要

诸如ChatGPT和GPT-4之类的大型语言模型最近在各种自然语言处理任务上取得了惊人的性能。在本文中，我们提出了MANGO，这是一个评估它们执行基于文本的映射和导航能力的基准。我们的基准测试包括53个取自一套文本游戏的迷宫：每个迷宫都有一个漫游，可以访问每个位置，但不覆盖所有可能的路径。任务是回答问题：对于每个迷宫，一个大型语言模型阅读漫游，并回答数百个地图和导航问题，如“你应该如何从房子的西面去阁楼？”和“如果我们从地窖向北和向东去，我们在哪里？”。尽管这些问题对人类来说很容易，但事实证明，即使是迄今为止最好的语言模型GPT-4在回答这些问题时也表现不佳。此外，我们的实验表明，强大的映射和导航能力将有利于大型语言模型在相关下游任务（如玩文本游戏）上的性能。我们的MANGO基准将促进未来对提高LLM地图和导航能力的方法的研究。我们的排行榜、数据、代码和评估程序位于https://mango.ttic.edu和

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。