本文是LLM系列文章,针对《TransportationGames: Benchmarking Transportation Knowledge of
(Multimodal) Large Language Models》的翻译。
摘要
大型语言模型(LLM)和多模态大型语言模型已显示出出色的通用能力,甚至在法律、经济、交通和医学等许多专业领域都表现出了适应性。目前,已经提出了许多特定领域的基准测试来验证(M)LLM在特定领域中的性能。在各个领域中,交通运输在现代社会中发挥着至关重要的作用,因为它影响着数十亿人的经济、环境和生活质量。然而,目前尚不清楚LLM拥有多少交通知识,以及它们是否能够可靠地执行与交通相关的任务。为了解决这一差距,我们提出了TransportationGames,这是一个精心设计和全面的评估基准,用于评估交通领域的(M)LLM。通过综合考虑现实世界场景中的应用,并参考Bloom分类法中的前三个层次,我们测试了各种(M)LLM在记忆、理解和应用所选任务的运输知识方面的性能。实验结果表明,尽管一些模型在某些任务中表现良好,但总体上仍有很大的改进空间。我们希望TransportationGames的发布能够为未来的研究奠定基础,从而加速(M)LLM在交通领域的实施和应用。
1 引言
2 相关工作
3 基准构建
4 实验
5 结论
在这项工作中,我们提出了TransportationGames,这是一个精心设计和全面的评估基准,用于评估交通领域的(M)LLM。参考Bloom分类法的前三个层次,我们测试了各种(M

TransportationGames是一个评估大型和多模态语言模型在交通领域知识和应用能力的基准。研究发现,尽管部分模型在特定任务上表现出色,但整体仍有提升空间,且分析了影响模型性能的因素。该基准参照Bloom分类法,测试模型在记忆、理解和应用交通知识的任务中表现,旨在推动(M)LLM在交通领域的进步。
已下架不支持订阅
883

被折叠的 条评论
为什么被折叠?



