1 顶会的Tutorial是干嘛的?
在学术会议(尤其是顶级会议,如 NeurIPS、ICLR、CVPR、ACM-MM、COLING 等)中,Tutorial 是指会议组织者安排的专题讲座或教学环节,通常由领域内的专家主讲,旨在向参会者介绍某个研究领域的最新进展、热点问题或基础知识。
1.1 Tutorial 的主要特点:
- 主题明确:通常围绕一个具体的研究领域或技术主题,比如“从多模态大语言模型到人类水平的人工智能:模态、指令、推理及未来展望”。
- 面向广泛受众:
- 既适合该领域的新手,也适合已有一定基础的研究者。
- 偶尔会提供进阶内容,适合深度研究者。
- 内容多样:
- 可以是理论介绍,比如算法的原理、数学背景。
- 也可以是实践指导,比如某些技术的实现、工具库的使用。
- 时长:一般为 1-4 小时,具体时长因会议安排而异。
- 互动性:可能包括演示、代码实践或问答环节。
1.2 顶会Tutorial示例
ACM Multimedia 2024 Conference Tutorials
1.3 Tutorial 的作用:
- 学习新技术:快速掌握某个领域的最新技术和方法。
- 更新前沿知识:了解领域内的最新研究进展。
- 拓展研究视野:为自己的研究方向找到新的灵感。
例如,在 NeurIPS 的 Tutorial 中,你可能会看到一些机器学习基础性主题的讲解,如 Bayesian Inference,也可能是某个新兴领域的技术分享,比如 Foundation Models in Multimodal AI。
如果你有计划参加顶会或者想一直follow该领域的新技术,那么该领域顶会的 Tutorial 是一个非常值得参与的环节,有助于快速提高对领域的理解!
2 本次学习的Tutorial
本次我们要学习的是ACM-MM会议上主题为“From Multimodal LLM to Human-level AI: Modality, Instruction, Reasoning and Beyond(从多模态大语言模型到人类水平的人工智能:模态、指令、推理及未来展望)”的Tutorial。
2.1 简介
欢迎来到 ACM MM 2024 的多模态大语言模型(MLLM)教程系列!
人工智能(AI)涵盖了跨越多种模态的知识获取与现实世界的落地应用。作为一个多学科交叉的研究领域,多模态大语言模型(MLLM)近年来在学术界和工业界引起了广泛关注,并呈现出通过 MLLM 实现人类水平人工智能的前所未有的趋势。这些大模型通过整合和建模包括语言、视觉、听觉和感官数据在内的多种信息模态,为理解、推理和规划提供了高效的工具。
本教程旨在全面回顾 MLLM 领域的前沿研究,重点关注以下关键领域:MLLM 的架构、模态、功能、指令学习、多模态幻觉、MLLM 评估以及 MLLM 的多模态推理能力。我们将探讨技术进展,梳理核心挑战,并讨论未来研究的潜在方向。
2.2 访问链接
MLLM团队更多的Tutorial如下:MLLM2024
3 学习笔记
Section | Presenter |
---|---|
第一部分:Background and Introduction(背景和介绍) | Hao Fei |
第二部分:MLLM Architecture & Modality(MLLM架构与模态) | Hao Fei |
第三部分:MLLM Functionality & Advances(MLLM功能与进展) | Xiangtai Li |
第四部分:MLLM Instruction Tuning(MLLM指令调优) | Haotian Liu |
第五部分:MLLM Hallucination(MLLM的幻觉现象) | Fuxiao Liu |
第六部分:MLLM Evaluation & Generalist(MLLM的评估与通用化) | Hanwang Zhang |
第七部分:MM Reasoning(多模态推理) | Zhuosheng Zhang |
第八部分:Panel Discussion - From MM Generalist to Human-level AI(专题讨论——从多模态通用化到人类水平AI) | All + Kaipeng Zhang + Shuicheng Yan |