A COMPREHENSIVE SURVEY ON EMERGING TRENDS IN MULTIMODAL REASONING

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量848

点赞数 14

CC 4.0 BY-SA版权

分类专栏： Survey Paper 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136327744

Survey Paper 同时被 2 个专栏收录

275 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM 日更

828 篇文章

已下架不支持订阅

本文详述了多模态大语言模型在推理能力上的发展，探讨了预训练、调整和评估基准的挑战，以及未来可能的研究方向，旨在提升模型在多模态任务中的推理性能。

本文是LLM系列文章，针对《EXPLORING THE REASONING ABILITIES OF MULTIMODAL LARGE LANGUAGE MODELS (MLLMS): A COMPREHENSIVE SURVEY ON EMERGING TRENDS IN MULTIMODAL REASONING》的翻译。

摘要

强大的人工智能（Strong AI）或具有抽象推理能力的通用人工智能（AGI）是下一代人工智能的目标。大语言模型（LLM）的最新进展，以及新兴的多模态大语言模型领域（MLLMs），在广泛的多模态任务和应用中展示了令人印象深刻的能力。特别是，各种MLLM，每个都有不同的模型体系结构、训练数据和训练阶段，已经在广泛的MLLM基准上进行了评估。这些研究在不同程度上揭示了MLLMs当前能力的不同方面。然而，MLLMs的推理能力尚未得到系统的研究。在这项调查中，我们全面回顾了现有的多模态推理评估协议，对MLLMs的前沿进行了分类和说明，介绍了MLLMs在推理密集型任务中应用的最新趋势，最后讨论了当前的实践和未来的方向。我们相信，我们的调查奠定了坚实的基础，并阐明了这一重要主题，即多模态推理。