本文是LLM系列文章,针对《MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models》的翻译。
摘要
诸如ChatGPT和GPT-4之类的大型语言模型最近在各种自然语言处理任务上取得了惊人的性能。在本文中,我们提出了MANGO,这是一个评估它们执行基于文本的映射和导航能力的基准。我们的基准测试包括53个取自一套文本游戏的迷宫:每个迷宫都有一个漫游,可以访问每个位置,但不覆盖所有可能的路径。任务是回答问题:对于每个迷宫,一个大型语言模型阅读漫游,并回答数百个地图和导航问题,如“你应该如何从房子的西面去阁楼?”和“如果我们从地窖向北和向东去,我们在哪里?”。尽管这些问题对人类来说很容易,但事实证明,即使是迄今为止最好的语言模型GPT-4在回答这些问题时也表现不佳。此外,我们的实验表明,强大的映射和导航能力将有利于大型语言模型在相关下游任务(如玩文本游戏)上的性能。我们的MANGO基准将促进未来对提高LLM地图和导航能力的方法的研究。我们的排行榜、数据、代码和评估程序位于https://mango.ttic.edu和