多模态大模型论文分享：MEEL: Multi-Modal Event Evolution Learning

以诚-617

已于 2024-09-20 08:35:48 修改

阅读量1.4k

点赞数 15

CC 4.0 BY-SA版权

文章标签：人工智能自然语言处理语言模型 llama 深度学习

于 2024-09-19 11:21:03 首次发布

本文链接：https://blog.youkuaiyun.com/qq_49446488/article/details/142354580

论文来源

这篇论这篇论文由 北京大学 和 北京航空航天大学 的研究人员合作撰写，具体发表在 ACL 2024（国际计算语言学协会大会 2024）的会议论文集中文由 北京大学 和 北京航空航天大学 的研究人员合作撰写，具体发表在 ACL 2024（国际计算语言学协会大会 2024）的会议论文集中。

该论文的贡献如下：

论文提出了多模态事件进化学习（MEEL）。旨在训练模型来理解各种场景的复杂事件演变。该方法对MM事件推理的其他研究具有一定的借鉴意义。
进一步设计了引导辨别来引导MMER的进化并减轻其幻觉。
为MMER收集和策划了 $M-EV^{2}$ 基准测试。 $M-EV^{2}$ 涵盖了多样化的利益关系。在 $M-EV^{2}$ 上进行了大量的实验，检验了模型的有效性.在开源MLLM中实现了具有竞争力的性能。

论文来源

摘要图解，针对为何要提出此问题，解决此问题

引言部分

Event Diversification

Event Graph Evolution

Instruction Encapsulation

Guiding Discrimination

Experiments

Conclusion

摘要图解，针对为何要提出此问题，解决此问题

引言部分

注重多模态图文数据，针对图片信息提取和解答，目前虽然多模态已经深入研究，但是针对输入的动态性质，任务训练模型无法感知事件演变。

对于此更好的理解如下图：

上图是飓风情景的事件演变的一部分。查询的事件为红色。MEEL赋予了模型关于场景演化中所有事件的知识。目前现有的方法只训练了绿色事件推理的少量片段模型。

针对事件发生的前导，造成的影响演化，结果处理等均没有考虑到。

首先设计事件场景多样化，从丰富的场景中获取各种事件。
然后，我们使用ChatGPT生成这些种子事件的演化图。其目的是使用这些图来训练模型，以理解事件演变的丰富知识。为了实现这一目标，改论文提出了指令封装过程，将演化图适配为指令调优数据来训练模型。这样，训练允许模型理解场景的更多事件演化知识，从而导致MMER的更好性能。
然而，仅允许模型学习演化图是不够的。如果不承认错误的演化事件，模型将错误地推进过程，导致事件推理的幻觉。为了缓解这种情况，作者进行了引导辨别。该模型需要判断错误的进化。
作者设计了各种负面挖掘策略来收集不正确的事件。最后，对模型进行训练，对正确的事件进行分类。我们还将引导性辨别引入到教学调整中。在获得所有数据后，对LLaVA进行微调模型（来获得论文的模型。

整体的流程框架图

Event Diversification

Event Diversification 事件演化

上图目的是展示MEEL系统中不同步骤的事件演变和指令生成过程。它描述了如何从种子事件开始，逐步构建事件演变图，并将这些演变图转化为模型训练所需的指令数据。具体来说，图3分为三个部分，分别展示了关键步骤。下面是详细解释：

1. 图3(a) - 事件演变提示生成 (Evolving Prompt)：

• 这一部分展示了如何为种子事件生成“演变提示”。 种子事件 是演变图的起点，模型从这里开始推演接下来的事件。图中的 褐色文本 仅在种子事件时出现，表示会为种子事件添加图像的描述信息（ caption ），以丰富事件的背景信息。

• 作用：通过提示 ChatGPT 生成与种子事件相关的事件，比如因果关系、时间顺序等。这一步是为了生成更多与初始事件相关的后续事件。

解释：种子事件给出后，ChatGPT会生成一系列与该事件有关的后续事件（比如种子事件的原因或结果）。这个提示通过结合图像和文本来创建新的事件，最终形成一个事件链。

2. 图3(b) - 指令生成与模板 (Instruction Generation & Template)：

• 这一部分展示了如何将事件演变图转换为可以用来训练模型的 指令数据 。

• 上方的提示 是用来生成指令的，要求 ChatGPT 生成包含尽可能多语法、语义及形式丰富的指令。这些指令会要求模型推测给定图像和事件的后续结果。

• 下方展示了一个生成的指令模板 ，这个模板用于训练模型如何从图像和文本推测出某个事件的结果。

解释：这一步是为了把复杂的事件关系（比如“事件A会导致事件B”）转化为模型能理解的训练任务格式，比如“根据图片描述事件A，模型需要推测出事件B是什么”。

3. 图3(c) - 多选指令生成与模板 (Multiple-choice Instruction Generation & Template)：

• 这一部分展示了如何生成用于训练模型的 多选题型的指令 。这些多选题要求模型根据图像和文本信息，从多个候选选项中选择最可能的结果事件。

• 上方的提示 用来生成要求模型从不同候选事件中挑选正确事件的多选问题。

• 下方展示了一个多选题的生成模板 ，模型需要根据提示，从给定的多个候选事件中选择一个最合适的事件。

解释：通过多选题，训练模型在面对多种可能结果时，学会判断哪个结果最符合事件演变的逻辑。这个过程有助于提高模型在复杂事件推理中的辨别能力。

Event Graph Evolution

输入：

• Seed event E: 种子事件，这是模型用来开始演变的初始事件。

• Caption C: 事件相关的图像描述，给出更多的上下文。

• Evolving relations RE: 事件演化关系的集合，如因果关系（ Cause ）、结果关系（ Result ）、时间先后（ Before/After ）等。

• Evolving steps L: 演变的步数，决定了演变图的深度，即事件会在多少步内演化出新的事件。

• 步骤 3-17 ：开始循环演变，每一次循环代表事件在时间轴上的一次演变：

• 步骤 5-6 ：如果是第一步，模型会同时参考事件的文本和图像的描述（即使用种子事件 E 和图像 C ），利用 ChatGPT 生成与该事件相关的新的事件（如事件的结果或后续发展）。

• 步骤 8-9 ：如果是后续的演变步骤，模型只使用前一个事件的文本信息进行演变（不再参考图像描述），继续生成新的事件。

• 步骤 10-14 ：对于每一个生成的事件，将其加入事件图，添加边（即连接前一个事件和新生成的事件，并标注它们之间的关系），然后将新生成的事件添加到事件集合 N 中。

步骤16-17：循环结束后，Ẽ被更新为新生成的事件集合，继续下一轮演变。

上述为演化进程，下图为一个种子事件的演化进程：

Instruction Encapsulation

指令封装部分的详细解释：

指令封装具体步骤

• 事件图中的边代表事件之间的关系，但有时图中的事件 并不直接相邻 。此时， MEEL 使用推导规则（如表 1 中的规则）来推导出两个不相邻事件之间的关系。例如：如果事件 A 通过“ After” 关系连接到事件 B ，而事件 B 通过“ Result” 关系连接到事件 C ，那么可以推导出事件 A 与事件 C 之间存在“ Result” 关系。

通过这种方式，模型能够推测出更复杂的事件间关系。

b. 指令生成模板

• 指令模板的设计 ： MEEL 使用 ChatGPT 生成了一系列 指令模板 ，这些模板根据不同的关系类型（如因果、时间顺序等）生成具体的指令。模板的设计目的是为了让模型理解这些事件关系，并学会在不同情境下做出推理。

• 指令数据的例子 ：每一个指令数据包括以下内容：

• 种子事件 （即开始的事件）

• 相关图像 （如果有）

• 事件之间的关系 （如“ Cause” 或“ Result” ）

• 推导出的目标事件

具体的指令参考Event Diversification 部分的图3（b）

Guiding Discrimination

指导性歧视

在一个复杂的事件演变过程中，模型需要基于给定的事件（如文本或图像）推测出正确的后续事件。然而，如果模型只学习正向的事件演变路径，而没有学会区分错误的演变，可能会导致模型生成错误的推理结果。比如，模型可能会推测出与逻辑不符的事件发展。

定义：语义负样本是那些与正样本在语义上非常相似，但在逻辑上不正确的事件。模型要学会区分这些在语义上很接近的错误事件。

定义：演变负样本是那些演变方向上出错的事件。模型要学会识别哪些事件演变方向是错误的。例子：如果模型需要推测“某人购买了一本书”之后的事件，而一个可能的负样本是“他把书还回去了”，这在时间顺序上不符合逻辑（除非已经发生了一系列中间事件），因此模型需要识别这是错误的结果。

在 Guiding Discrimination 的训练过程中，模型的损失函数被定义为两部分：

• MMER 损失（ Multi-Modal Event Reasoning Loss ，简称 LR ）：用于训练模型在多模态输入（图像 + 文本）下推理出正确的事件。

• 指导区分损失 （ Guiding Discrimination Loss ，简称 LD ）：用于训练模型区分正负样本，确保模型能识别并排除错误事件。

综合的总损失函数为： L=LR+LDL = LR + LDL=LR+LD

模型通过最小化这个损失函数，学习既能正确推理事件的演变，又能有效避免推理出错误的事件。

具体的指令参考Event Diversification 部分的图3（c）

Experiments

为了全面评估MMER模型对多元化事件间关系的能力，该团队收集并策划了基准M−𝐸𝑉2M-EV^2

1、VCOPA这是常识性VQA的任务。给定图像I和两个候选选项，任务是选择更合理的原因或结果选项。

将该数据集转化为一个开放式推理任务。我们将原始的多项选择任务表示为VCOPA-C，将转换后的任务表示为VCOPA-O。

2、VisCa这是从视觉和文本信号中学习上下文因果关系的数据集

在给定两个图像作为上下文和两个文本句子描述的情况下，模型需要确定前一个句子是否导致后一个句子。VisCa-C和VisCa-O。

我们将其转换为我们的VQA任务。我们保留了图像和第一句话，并将第二句话作为标签生成。我们根据真实情况提取一个否定句，并将其形成一个多项选择题。我们还将多项选择任务改编成类似于VCOPA-O的开放式推理。

3. VisualComet这是一个开放的常识性VQA任务。我们还检索了一个否定的答案，并将其公式化为一个多项选择任务。我们将这两个任务分别表示为VC-O和VC-C。

4. IgSEG该数据集的目的是基于已经发生的事情来预测未来的事件。具体地说，给定一个按顺序排列的句子序列和接下来将要发生的事情的图像，模型需要为这个图像生成一个句子。此外，我们还提取了一个否定事件，并将其形成为一个多项选择任务。我们将这两个任务表示为IgSEG-O和IgSEG-C。

5. VIST这是讲故事的任务，即在句子和图像中给出前一个故事的情况下产生下一个故事

MEEL在视觉事件预测方面优于基线。MEEL在表中的所有基线中表现最好。结果表明，训练方法使模型能够捕获正确的时间关系，从而对未来进行更精确的预测。与VQA任务相比，所有模型在视觉事件预测方面的表现都较差，这表明完成这个任务需要更多的知识和推理能力。在OPEN视觉预测中，MEEL在BERT-SCORE中也获得了最高分。这表明模型可以预测语义相似的事件。