本文是LLM系列文章,针对《Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey》的翻译。
面向多模态智能的下一token预测:综合调查
摘要
在自然语言处理中语言建模的基础上,Next Token Prediction(NTP)已经发展成为跨各种模式的机器学习任务的通用训练目标,取得了相当大的成功。随着大型语言模型(LLM)的发展,在文本模态中统一了理解和生成任务,最近的研究表明,来自不同模态的任务也可以有效地封装在NTP框架中,将多模态信息转换为令牌,并在给定上下文的情况下预测下一个。这项调查引入了一个全面的分类法,通过NTP的视角统一了多模态学习中的理解和生成。拟议的分类法涵盖了五个关键方面:多模式标记化、MMNTP模型架构、统一任务表示、数据集和评估以及开放挑战。这一新的分类法旨在帮助研究人员探索多模态智能。收集最新论文和repos的相关GitHub存储库可在https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction.