||MLLM Series Tutorial @ ACM MM 2024||第七部分:MM Reasoning(多模态推理)

目录

0 完整Tutorial内容

1 Basics of Multimodal Reasoning (多模态推理的基础)

1.1 Background(背景)

1.2 Definition(定义)

1.3 Development (发展)

2 Multimodal Chain-of-Thought Reasoning (多模态思维链推理)

2.1 Paradigm Shift(范式转变)

2.2 the Role of Multimodal CoT (多模态思维链的作用)

3 Towards Multimodal LLM Agents (朝向多模态大型语言模型代理(LLM))

3.1 Taxonomy(分类法)

3.2 Architecture(架构)

3.3 Applications (应用)

4 Challenges (挑战)

4.1 Evolutionary Reasoning (演化推理)、Interactive Reasoning (互动推理)、Reasoning Alignment (推理对齐)

4.2 Safety (安全性)

5 总结


0 完整Tutorial内容

本文为"⭐⭐MLLM Tutorial⭐⭐——多模态大语言模型最新教程"——第七部分的学习笔记,完整内容参见:

⭐⭐MLLM Tutorial⭐⭐——多模态大语言模型最新教程-优快云博客

1 Basics of Multimodal Reasoning (多模态推理的基础)

1.1 Background(背景

  • 日常生活中的多模态推理:多模态推理发生在我们将多种形式的信息(如图像、文本、数字)结合起来做决策或得出结论时。在日常生活中,我们经常进行多模态推理,比如解读图表或表格来获取信息,或通过视觉和文本线索回答问题。这表明,多模态输入在人类推理和决策中扮演了重要角色。

  • 创意任务中的应用:多模态推理同样适用于创意任务,例如我们使用常识推理理解提示的意图,并生成多模态的回应。这类任务在艺术和设计等领域中非常常见。

1.2 Definition(定义)

  • 多模态推理:指的是基于多种模态(如文本和图像等)进行推理的过程。这种推理可以发生在输入端、输出端,或两者之间。其目标是从不同的输入中得出高层次的结论,并利用这些结论进行预测或决策。

  • 推理过程:为了回答问题或解决问题,多模态推理包括评估支持事实、推断逻辑步骤,并根据这些推理得出结论。这与人类如何结合多种输入(如图像、文本)形成答案或生成知识的过程类似。

1.3 Development (发展)

  • 多模态推理的演变:随着多模态语言模型(MLLM)能力的提升,推理方式也发生了变化。过去,每个任务(如图像描述、问题回答等)需要训练特定的模型,而现在,单一的MLLM模型可以泛化到更多任务,成为统一的模型。通过上下文学习,模型的能力可以进一步增强。

  • 从单步预测到逐步推理的转变:传统的视觉问答(VQA)问题通常只给出答案,而不提供推理过程。但现在,先进的MLLM模型已经能够提供逐步推理,并通过这些推理步骤得出最终答案,这种逐步推理的过程被称为“多模态链式思维推理”(multimodal chain-of-thought reasoning)。

2 Multimodal Chain-of-Thought Reasoning (多模态思维链推理)

2.1 Paradigm Shift(范式转变

从直接输入输出映射到中间步骤推理:以往,问答模型训练时常采用直接的输入到输出的映射方式。如今,随着多模态思维链(Multimodal Chain-of-Thought, CoT)的引入,模型在进行推理时加入了中间步骤,这些步骤成为了输入和输出之间的过渡。例如,在多模态推理的早期工作中,模型首先生成推理过程(例如推理步骤或相关知识),然后将该推理与原始输入结合,最终生成答案。这种两阶段的推理过程可以使模型更加精细地处理复杂任务。

多模态输入输出扩展:多模态思维链不仅在输入和输出上扩展了模型的能力。在输入上,模型可以同时处理文本、图像和图表等多种模态;而在输出上,模型也可以生成多种形式的结果(如文本和图像)。这种扩展使得模型能够更全面地理解和生成多模态信息。

引入视频思维链(VOT)框架:更近期的研究引入了视频思维链(VOT),这个框架将复杂的视频推理问题拆解为多个子问题,从低级别的像素感知到高级的分析,再逐步处理。这标志着多模态推理在处理视频等复杂数据时的进一步发展。

2.2 the Role of Multimodal CoT (多模态思维链的作用)

提高推理的有效性:多模态思维链的一个关键作用是帮助模型将复杂问题分解为较小的、可管理的子问题。这种逐步推理的过程通过计算更多的tokens来减少搜索空间,从而使推理更具效率。

减少幻觉(Hallucination):模型在没有完整信息(如图像缺失)的情况下,容易生成不准确的答案,这种现象被称为“幻觉”。在实验中,当模型仅使用文本提问进行推理时,容易出现幻觉。而当图像信息也被提供时,约60%的幻觉错误得以纠正。这表明,可靠的输入信息对于推理的有效性至关重要。

增强推理的可纠正性:多模态思维链不仅帮助模型逐步推理,还通过逐步过程使推理变得可纠正。每个步骤都可以通过外部工具进行验证和修正,这有助于克服语言模型中计算量过大和推理错误等问题。因此,采用逐步推理的方式可以显著提高模型的推理能力。

改进模型的可靠性和推理过程:通过将推理过程分解为更简单的步骤,多模态思维链使得推理变得更加透明和可解释,也有助于模型根据外部信息进行调整和改进,从而在处理复杂的推理任务时取得更准确的结果。 

3 Towards Multimodal LLM Agents (朝向多模态大型语言模型代理(LLM))

3.1 Taxonomy(分类法

自主智能体:自主智能体的目标是独立地解决复杂任务。这些智能体能够自主完成任务,而无需人类的持续干预。典型应用包括自动化网页操作、移动设备自动化和应用程序自动化等。

交互式智能体:交互式智能体是个性化、社交化的智能体,能够模仿人类行为,进行沟通、协作和辩论等互动。它们可以在人与人、人与智能体之间进行有效的交流与协作。应用场景包括人机协作、智能客服等。

3.2 Architecture(架构)

  • 多模态自主智能体架构:多模态自主智能体能够处理复杂环境中的感知任务,并执行一系列与环境互动的操作。这些智能体能够理解用户指令,并根据指令与环境进行多步互动。例如,Auto GUI是一个多模态自主智能体,可以通过模仿人类的点击、输入等动作来操作图形用户界面(GUI),帮助用户完成任务。

  • 多模态思维链工作流:多模态智能体的工作流采用了“思维链”式的操作方式,其中包括前一步操作的历史(输入端)和未来操作计划(输出端)。这种方式模仿了智能体的记忆和规划机制,帮助智能体做出更有效的决策,执行每一步任务。通过这种“思维链”方法,智能体可以在没有为每个任务训练特定模型的情况下适应不同的场景。

3.3 Applications (应用)

Auto GUI应用案例:Auto GUI是一个多模态自主智能体,用于GUI控制。给定用户指令后,Auto GUI能够帮助用户在远程环境中完成操作系统、特定应用程序和网页浏览器等的任务。在每次交互中,智能体模仿人类的点击、拖动和输入操作,直接与GUI进行互动。

性能表现:Auto GUI在动作类型预测准确率上达到了90%的领先水平,总体成功率为74%。它能够适应不同的应用场景,无需为每个任务单独训练特定模型,也不需要额外的标注,使用起来非常便捷。

研究发现:在研究中发现,视觉编码器的变化对性能影响很大。这是因为GUI涉及的元素非常复杂,可能包括图标、文本框等,任何对GUI的错误感知都会误导推理过程。相比之下,模型的规模对性能的影响较小,使用更大的模型并未显著提高性能。

误差分析:尽管Auto GUI在动作类型预测上表现优秀,但在点击区域和方向预测上存在一定的误差,模型可能会点击错误的区域或者执行错误的方向操作。虽然模型能够预测正确的动作类型,但在精确执行时仍然面临挑战。 

4 Challenges (挑战)

4.1 Evolutionary Reasoning (演化推理)、Interactive Reasoning (互动推理)、Reasoning Alignment (推理对齐)

  • 演化推理(Evolutionary Reasoning):演化推理指的是多模态智能体能够在环境中主动探索和进化的能力。智能体通过与环境的互动逐渐优化其推理过程,以应对更复杂和多变的任务。这种推理方式使得智能体能够持续改进,逐步适应环境中的变化。

  • 互动推理(Interactive Reasoning):互动推理强调人机协作中的推理过程,即人类可以通过与智能体的互动,参与推理和决策。这种推理方式能够增强智能体与人类的协作,提高智能体在复杂任务中的表现,尤其是在需要人工干预的情境下。

  • 推理对齐(Reasoning Alignment):推理对齐涉及将多模态智能体的推理过程与预期目标对齐,以确保智能体的决策符合人类的意图和目标。推理对齐的目标是消除智能体推理过程中的误差,保证其推理与目标任务的一致性。

4.2 Safety (安全性)

  • 环境攻击(Environment Attack):多模态智能体在执行任务时,可能会受到来自环境的干扰和攻击。例如,在图形用户界面(GUI)任务中,环境中可能会出现与任务无关的干扰项,如广告或新的指令,这些干扰项会分散智能体的注意力,使其偏离原本的任务,执行错误的操作。因此,防止环境攻击是确保智能体安全性的重要任务。

  • 攻击方式:在智能体安全性研究中,常见的攻击方式包括对智能体的用户攻击(如对抗性攻击或越狱攻击),以及环境攻击。在GUI智能体中,重点不是防止对智能体的攻击,而是防止环境中的干扰因素影响智能体的决策。

  • 系统性安全性研究:研究者还进行了一系列系统性研究,涉及包括环境注入、单一智能体场景中的知识传播、多模态场景中的安全性问题以及针对智能体功能的后门攻击等。这些研究为智能体的安全性提供了更全面的理解,并制定了相应的安全性基准。

5 总结

在这一部分的内容中,我们首先介绍了多模态推理的定义、背景和发展,接着深入探讨了多模态思维链推理(CoT)的提升,随后我们讨论了多模态生成模型的热议话题。最后,我们强调了当前多模态推理领域面临的一些挑战。

智能网联汽车的安全员高级考试涉及多个方面的专业知识,包括但不限于自动驾驶技术原理、车辆传感器融合、网络安全防护以及法律法规等内容。以下是针对该主题的一些核心知识点解析: ### 关于智能网联车安全员高级考试的核心内容 #### 1. 自动驾驶分级标准 国际自动机工程师学会(SAE International)定义了六个级别的自动驾驶等级,从L0到L5[^1]。其中,L3及以上级别需要安全员具备更高的应急处理能力。 #### 2. 车辆感知系统的组成与功能 智能网联车通常配备多种传感器,如激光雷达、毫米波雷达、摄像头和超声波传感器等。这些设备协同工作以实现环境感知、障碍物检测等功能[^2]。 #### 3. 数据通信与网络安全 智能网联车依赖V2X(Vehicle-to-Everything)技术进行数据交换,在此过程中需防范潜在的网络攻击风险,例如中间人攻击或恶意软件入侵[^3]。 #### 4. 法律法规要求 不同国家和地区对于无人驾驶测试及运营有着严格的规定,考生应熟悉当地交通法典中有关自动化驾驶部分的具体条款[^4]。 ```python # 示例代码:模拟简单决策逻辑 def decide_action(sensor_data): if sensor_data['obstacle'] and not sensor_data['emergency']: return 'slow_down' elif sensor_data['pedestrian_crossing']: return 'stop_and_yield' else: return 'continue_driving' example_input = {'obstacle': True, 'emergency': False, 'pedestrian_crossing': False} action = decide_action(example_input) print(f"Action to take: {action}") ``` 需要注意的是,“橙点同学”作为特定平台上的学习资源名称,并不提供官方认证的标准答案集;建议通过正规渠道获取教材并参加培训课程来准备此类资格认证考试。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值