||MLLM Series Tutorial @ ACM MM 2024||第七部分：MM Reasoning（多模态推理）

笨笨sg

已于 2024-12-10 16:06:20 修改

阅读量1.3k

点赞数 14

分类专栏： MLLM Series Tutorial-ACM MM 文章标签： MLLM Tutorial ACM MM 2024 第七部分 MM Reasoning 多模态推理

于 2024-12-10 15:33:32 首次发布

本文链接：https://blog.youkuaiyun.com/a131529/article/details/144375439

版权

MLLM Series Tutorial-ACM MM 专栏收录该内容

9 篇文章

订阅专栏

0 完整Tutorial内容

1 Basics of Multimodal Reasoning (多模态推理的基础)

1.1 Background（背景）

1.2 Definition（定义）

1.3 Development （发展)

2 Multimodal Chain-of-Thought Reasoning (多模态思维链推理)

2.1 Paradigm Shift（范式转变）

2.2 the Role of Multimodal CoT (多模态思维链的作用)

3 Towards Multimodal LLM Agents (朝向多模态大型语言模型代理（LLM）)

3.1 Taxonomy（分类法）

3.2 Architecture（架构）

3.3 Applications （应用）

4 Challenges (挑战)

4.1 Evolutionary Reasoning (演化推理)、Interactive Reasoning (互动推理)、Reasoning Alignment (推理对齐)

4.2 Safety (安全性)

5 总结

0 完整Tutorial内容

本文为"⭐⭐MLLM Tutorial⭐⭐——多模态大语言模型最新教程"——第七部分的学习笔记，完整内容参见：

⭐⭐MLLM Tutorial⭐⭐——多模态大语言模型最新教程-优快云博客

1 Basics of Multimodal Reasoning (多模态推理的基础)

1.1 Background（背景）

日常生活中的多模态推理：多模态推理发生在我们将多种形式的信息（如图像、文本、数字）结合起来做决策或得出结论时。在日常生活中，我们经常进行多模态推理，比如解读图表或表格来获取信息，或通过视觉和文本线索回答问题。这表明，多模态输入在人类推理和决策中扮演了重要角色。
创意任务中的应用：多模态推理同样适用于创意任务，例如我们使用常识推理理解提示的意图，并生成多模态的回应。这类任务在艺术和设计等领域中非常常见。

1.2 Definition（定义）

多模态推理：指的是基于多种模态（如文本和图像等）进行推理的过程。这种推理可以发生在输入端、输出端，或两者之间。其目标是从不同的输入中得出高层次的结论，并利用这些结论进行预测或决策。
推理过程：为了回答问题或解决问题，多模态推理包括评估支持事实、推断逻辑步骤，并根据这些推理得出结论。这与人类如何结合多种输入（如图像、文本）形成答案或生成知识的过程类似。

1.3 Development （发展)

多模态推理的演变：随着多模态语言模型（MLLM）能力的提升，推理方式也发生了变化。过去，每个任务（如图像描述、问题回答等）需要训练特定的模型，而现在，单一的MLLM模型可以泛化到更多任务，成为统一的模型。通过上下文学习，模型的能力可以进一步增强。
从单步预测到逐步推理的转变：传统的视觉问答（VQA）问题通常只给出答案，而不提供推理过程。但现在，先进的MLLM模型已经能够提供逐步推理，并通过这些推理步骤得出最终答案，这种逐步推理的过程被称为“多模态链式思维推理”（multimodal chain-of-thought reasoning）。

2 Multimodal Chain-of-Thought Reasoning (多模态思维链推理)

2.1 Paradigm Shift（范式转变）

从直接输入输出映射到中间步骤推理：以往，问答模型训练时常采用直接的输入到输出的映射方式。如今，随着多模态思维链（Multimodal Chain-of-Thought, CoT）的引入，模型在进行推理时加入了中间步骤，这些步骤成为了输入和输出之间的过渡。例如，在多模态推理的早期工作中，模型首先生成推理过程（例如推理步骤或相关知识），然后将该推理与原始输入结合，最终生成答案。这种两阶段的推理过程可以使模型更加精细地处理复杂任务。

多模态输入输出扩展：多模态思维链不仅在输入和输出上扩展了模型的能力。在输入上，模型可以同时处理文本、图像和图表等多种模态；而在输出上，模型也可以生成多种形式的结果（如文本和图像）。这种扩展使得模型能够更全面地理解和生成多模态信息。

引入视频思维链（VOT）框架：更近期的研究引入了视频思维链（VOT），这个框架将复杂的视频推理问题拆解为多个子问题，从低级别的像素感知到高级的分析，再逐步处理。这标志着多模态推理在处理视频等复杂数据时的进一步发展。

2.2 the Role of Multimodal CoT (多模态思维链的作用)

提高推理的有效性：多模态思维链的一个关键作用是帮助模型将复杂问题分解为较小的、可管理的子问题。这种逐步推理的过程通过计算更多的tokens来减少搜索空间，从而使推理更具效率。

减少幻觉（Hallucination）：模型在没有完整信息（如图像缺失）的情况下，容易生成不准确的答案，这种现象被称为“幻觉”。在实验中，当模型仅使用文本提问进行推理时，容易出现幻觉。而当图像信息也被提供时，约60%的幻觉错误得以纠正。这表明，可靠的输入信息对于推理的有效性至关重要。

增强推理的可纠正性：多模态思维链不仅帮助模型逐步推理，还通过逐步过程使推理变得可纠正。每个步骤都可以通过外部工具进行验证和修正，这有助于克服语言模型中计算量过大和推理错误等问题。因此，采用逐步推理的方式可以显著提高模型的推理能力。

改进模型的可靠性和推理过程：通过将推理过程分解为更简单的步骤，多模态思维链使得推理变得更加透明和可解释，也有助于模型根据外部信息进行调整和改进，从而在处理复杂的推理任务时取得更准确的结果。

3 Towards Multimodal LLM Agents (朝向多模态大型语言模型代理（LLM）)

3.1 Taxonomy（分类法）

自主智能体：自主智能体的目标是独立地解决复杂任务。这些智能体能够自主完成任务，而无需人类的持续干预。典型应用包括自动化网页操作、移动设备自动化和应用程序自动化等。

交互式智能体：交互式智能体是个性化、社交化的智能体，能够模仿人类行为，进行沟通、协作和辩论等互动。它们可以在人与人、人与智能体之间进行有效的交流与协作。应用场景包括人机协作、智能客服等。

3.2 Architecture（架构）

多模态自主智能体架构：多模态自主智能体能够处理复杂环境中的感知任务，并执行一系列与环境互动的操作。这些智能体能够理解用户指令，并根据指令与环境进行多步互动。例如，Auto GUI是一个多模态自主智能体，可以通过模仿人类的点击、输入等动作来操作图形用户界面（GUI），帮助用户完成任务。
多模态思维链工作流：多模态智能体的工作流采用了“思维链”式的操作方式，其中包括前一步操作的历史（输入端）和未来操作计划（输出端）。这种方式模仿了智能体的记忆和规划机制，帮助智能体做出更有效的决策，执行每一步任务。通过这种“思维链”方法，智能体可以在没有为每个任务训练特定模型的情况下适应不同的场景。

3.3 Applications （应用）

Auto GUI应用案例：Auto GUI是一个多模态自主智能体，用于GUI控制。给定用户指令后，Auto GUI能够帮助用户在远程环境中完成操作系统、特定应用程序和网页浏览器等的任务。在每次交互中，智能体模仿人类的点击、拖动和输入操作，直接与GUI进行互动。

性能表现：Auto GUI在动作类型预测准确率上达到了90%的领先水平，总体成功率为74%。它能够适应不同的应用场景，无需为每个任务单独训练特定模型，也不需要额外的标注，使用起来非常便捷。

研究发现：在研究中发现，视觉编码器的变化对性能影响很大。这是因为GUI涉及的元素非常复杂，可能包括图标、文本框等，任何对GUI的错误感知都会误导推理过程。相比之下，模型的规模对性能的影响较小，使用更大的模型并未显著提高性能。

误差分析：尽管Auto GUI在动作类型预测上表现优秀，但在点击区域和方向预测上存在一定的误差，模型可能会点击错误的区域或者执行错误的方向操作。虽然模型能够预测正确的动作类型，但在精确执行时仍然面临挑战。

4 Challenges (挑战)

4.1 Evolutionary Reasoning (演化推理)、Interactive Reasoning (互动推理)、Reasoning Alignment (推理对齐)

演化推理（Evolutionary Reasoning）：演化推理指的是多模态智能体能够在环境中主动探索和进化的能力。智能体通过与环境的互动逐渐优化其推理过程，以应对更复杂和多变的任务。这种推理方式使得智能体能够持续改进，逐步适应环境中的变化。
互动推理（Interactive Reasoning）：互动推理强调人机协作中的推理过程，即人类可以通过与智能体的互动，参与推理和决策。这种推理方式能够增强智能体与人类的协作，提高智能体在复杂任务中的表现，尤其是在需要人工干预的情境下。
推理对齐（Reasoning Alignment）：推理对齐涉及将多模态智能体的推理过程与预期目标对齐，以确保智能体的决策符合人类的意图和目标。推理对齐的目标是消除智能体推理过程中的误差，保证其推理与目标任务的一致性。

4.2 Safety (安全性)

环境攻击（Environment Attack）：多模态智能体在执行任务时，可能会受到来自环境的干扰和攻击。例如，在图形用户界面（GUI）任务中，环境中可能会出现与任务无关的干扰项，如广告或新的指令，这些干扰项会分散智能体的注意力，使其偏离原本的任务，执行错误的操作。因此，防止环境攻击是确保智能体安全性的重要任务。
攻击方式：在智能体安全性研究中，常见的攻击方式包括对智能体的用户攻击（如对抗性攻击或越狱攻击），以及环境攻击。在GUI智能体中，重点不是防止对智能体的攻击，而是防止环境中的干扰因素影响智能体的决策。
系统性安全性研究：研究者还进行了一系列系统性研究，涉及包括环境注入、单一智能体场景中的知识传播、多模态场景中的安全性问题以及针对智能体功能的后门攻击等。这些研究为智能体的安全性提供了更全面的理解，并制定了相应的安全性基准。