多模态大模型论文分享:MEEL: Multi-Modal Event Evolution Learning

论文来源

这篇论这篇论文由 北京大学北京航空航天大学 的研究人员合作撰写,具体发表在 ACL 2024(国际计算语言学协会大会 2024)的会议论文集中文由 北京大学北京航空航天大学 的研究人员合作撰写,具体发表在 ACL 2024(国际计算语言学协会大会 2024)的会议论文集中。

该论文的贡献如下:

  1. 论文提出了多模态事件进化学习(MEEL)。旨在训练模型来理解各种场景的复杂事件演变。该方法对MM事件推理的其他研究具有一定的借鉴意义。
  2. 进一步设计了引导辨别来引导MMER的进化并减轻其幻觉。
  3. 为MMER收集和策划了M-EV^{2}基准测试。M-EV^{2}涵盖了多样化的利益关系。在M-EV^{2}上进行了大量的实验,检验了模型的有效性.在开源MLLM中实现了具有竞争力的性能。

目录

论文来源

摘要图解,针对为何要提出此问题,解决此问题

引言部分

Multi-Modal Event Evolution Learning

Event Diversification

Event Graph Evolution

Instruction Encapsulation

Guiding Discrimination

Experiments

Conclusion


摘要图解,针对为何要提出此问题,解决此问题

引言部分

注重多模态图文数据,针对图片信息提取和解答,目前虽然多模态已经深入研究,但是针对输入的动态性质,任务训练模型无法感知事件演变。

对于此更好的理解如下图:

上图是飓风情景的事件演变的一部分。查询的事件为红色。MEEL赋予了模型关于场景演化中所有事件的知识。目前现有的方法只训练了绿色事件推理的少量片段模型。

针对事件发生的前导,造成的影响演化,结果处理等均没有考虑到。

  1. 首先设计事件场景多样化,从丰富的场景中获取各种事件。
  2. 然后,我们使用ChatGPT生成这些种子事件的演化图。其目的是使用这些图来训练模型,以理解事件演变的丰富知识。为了实现这一目标,改论文提出了指令封装过程将演化图适配为指令调优数据来训练模型。这样,训练允许模型理解场景的更多事件演化知识,从而导致MMER的更好性能。
  3. 然而,仅允许模型学习演化图是不够的。如果不承认错误的演化事件,模型将错误地推进过程,导致事件推理的幻觉。为了缓解这种情况,作者进行了引导辨别。该模型需要判断错误的进化。
  4. 作者设计了各种负面挖掘策略来收集不正确的事件。最后,对模型进行训练,对正确的事件进行分类。我们还将引导性辨别引入到教学调整中。在获得所有数据后,对LLaVA进行微调模型(来获得论文的模型。

Multi-Modal Event Evolution Learning

整体的流程框架图

Event Diversification

Event Diversification 事件演化

上图目的是展示MEEL系统中不同步骤的事件演变指令生成过程。它描述了如何从种子事件开始,逐步构建事件演变图,并将这些演变图转化为模型训练所需的指令数据。具体来说,图3分为三个部分,分别展示了关键步骤。下面是详细解释:

1. 3(a) - 事件演变提示生成 (Evolving Prompt)

这一部分展示了如何为种子事件生成“演变提示”。 种子事件 是演变图的起点,模型从这里开始推演接下来的事件。图中的 褐色文本 仅在种子事件时出现,表示会为种子事件添加图像的描述信息( caption ),以丰富事件的背景信息。
作用 :通过提示 ChatGPT 生成与种子事件相关的事件,比如因果关系、时间顺序等。这一步是为了生成更多与初始事件相关的后续事件。

解释:种子事件给出后,ChatGPT会生成一系列与该事件有关的后续事件(比如种子事件的原因或结果)。这个提示通过结合图像和文本来创建新的事件,最终形成一个事件链。

2. 3(b) - 指令生成与模板 (Instruction Generation & Template)

这一部分展示了如何将事件演变图转换为可以用来训练模型的 指令数据
上方的提示 是用来生成指令的,要求 ChatGPT 生成包含尽可能多语法、语义及形式丰富的指令。这些指令会要求模型推测给定图像和事件的后续结果。
下方展示了一个生成的指令模板 ,这个模板用于训练模型如何从图像和文本推测出某个事件的结果。

解释:这一步是为了把复杂的事件关系(比如“事件A会导致事件B”)转化为模型能理解的训练任务格式,比如“根据图片描述事件A,模型需要推测出事件B是什么”。

3. 3(c) - 多选指令生成与模板 (Multiple-choice Instruction Generation & Template)

这一部分展示了如何生成用于训练模型的 多选题型的指令 。这些多选题要求模型根据图像和文本信息,从多个候选选项中选择最可能的结果事件。
上方的提示 用来生成要求模型从不同候选事件中挑选正确事件的多选问题。
下方展示了一个多选题的生成模板 ,模型需要根据提示,从给定的多个候选事件中选择一个最合适的事件。

解释:通过多选题,训练模型在面对多种可能结果时,学会判断哪个结果最符合事件演变的逻辑。这个过程有助于提高模型在复杂事件推理中的辨别能力。

Event Graph Evolution

输入:

Seed event E: 种子事件,这是模型用来开始演变的初始事件。
Caption C: 事件相关的图像描述,给出更多的上下文。
Evolving relations RE: 事件演化关系的集合,如因果关系( Cause )、结果关系( Result )、时间先后( Before/After )等。
Evolving steps L: 演变的步数,决定了演变图的深度,即事件会在多少步内演化出新的事件。
步骤 3-17 :开始循环演变,每一次循环代表事件在时间轴上的一次演变:
步骤 5-6 :如果是第一步,模型会同时参考事件的文本和图像的描述(即使用种子事件 E 和图像 C ),利用 ChatGPT 生成与该事件相关的新的事件(如事件的结果或后续发展)。
步骤 8-9 :如果是后续的演变步骤,模型只使用前一个事件的文本信息进行演变(不再参考图像描述),继续生成新的事件。
步骤 10-14 :对于每一个生成的事件,将其加入事件图,添加边(即连接前一个事件和新生成的事件,并标注它们之间的关系),然后将新生成的事件添加到事件集合 N 中。

步骤16-17:循环结束后,被更新为新生成的事件集合,继续下一轮演变。

上述为演化进程,下图为一个种子事件的演化进程:

Instruction Encapsulation

指令封装部分的详细解释:

指令封装具体步骤

事件图中的边代表事件之间的关系,但有时图中的事件 并不直接相邻 。此时, MEEL 使用推导规则(如表 1 中的规则)来推导出两个不相邻事件之间的关系。例如:如果事件 A 通过“ After” 关系连接到事件 B ,而事件 B 通过“ Result” 关系连接到事件 C ,那么可以推导出事件 A 与事件 C 之间存在“ Result” 关系。

通过这种方式,模型能够推测出更复杂的事件间关系。

b. 指令生成模板

指令模板的设计 MEEL 使用 ChatGPT 生成了一系列 指令模板 ,这些模板根据不同的关系类型(如因果、时间顺序等)生成具体的指令。模板的设计目的是为了让模型理解这些事件关系,并学会在不同情境下做出推理。
指令数据的例子 :每一个指令数据包括以下内容:
种子事件 (即开始的事件)
相关图像 (如果有)
事件之间的关系 (如“ Cause” 或“ Result”
推导出的目标事件

具体的指令参考Event Diversification 部分的图3(b)

Guiding Discrimination

指导性歧视

在一个复杂的事件演变过程中,模型需要基于给定的事件(如文本或图像)推测出正确的后续事件。然而,如果模型只学习正向的事件演变路径,而没有学会区分错误的演变,可能会导致模型生成错误的推理结果。比如,模型可能会推测出与逻辑不符的事件发展。

定义语义负样本是那些与正样本在语义上非常相似,但在逻辑上不正确的事件。模型要学会区分这些在语义上很接近的错误事件

定义演变负样本是那些演变方向上出错的事件。模型要学会识别哪些事件演变方向是错误的。例子:如果模型需要推测“某人购买了一本书”之后的事件,而一个可能的负样本是“他把书还回去了”,这在时间顺序上不符合逻辑(除非已经发生了一系列中间事件),因此模型需要识别这是错误的结果。

Guiding Discrimination 的训练过程中,模型的损失函数被定义为两部分:

MMER 损失 Multi-Modal Event Reasoning Loss ,简称 LR ):用于训练模型在多模态输入(图像 + 文本)下推理出正确的事件。
指导区分损失 Guiding Discrimination Loss ,简称 LD ):用于训练模型区分正负样本,确保模型能识别并排除错误事件。

综合的总损失函数为: L=LR+LDL = LR + LDL=LR+LD

模型通过最小化这个损失函数,学习既能正确推理事件的演变,又能有效避免推理出错误的事件。

具体的指令参考Event Diversification 部分的图3(c)

Experiments

为了全面评估MMER模型对多元化事件间关系的能力,该团队收集并策划了基准M𝐸𝑉2M-EV^2

1VCOPA这是常识性VQA的任务给定图像I和两个候选选项,任务是选择更合理的原因或结果选项。

将该数据集转化为一个开放式推理任务。我们将原始的多项选择任务表示为VCOPA-C,将转换后的任务表示为VCOPA-O

2VisCa这是从视觉和文本信号中学习上下文因果关系的数据集

在给定两个图像作为上下文和两个文本句子描述的情况下,模型需要确定前一个句子是否导致后一个句子。VisCa-CVisCa-O

我们将其转换为我们的VQA任务。我们保留了图像和第一句话,并将第二句话作为标签生成。我们根据真实情况提取一个否定句,并将其形成一个多项选择题。我们还将多项选择任务改编成类似于VCOPA-O的开放式推理。

3. VisualComet这是一个开放的常识性VQA任务。我们还检索了一个否定的答案,并将其公式化为一个多项选择任务。我们将这两个任务分别表示为VC-OVC-C

4. IgSEG该数据集的目的是基于已经发生的事情来预测未来的事件。具体地说,给定一个按顺序排列的句子序列和接下来将要发生的事情的图像,模型需要为这个图像生成一个句子。此外,我们还提取了一个否定事件,并将其形成为一个多项选择任务。我们将这两个任务表示为IgSEG-OIgSEG-C

5. VIST这是讲故事的任务,即在句子和图像中给出前一个故事的情况下产生下一个故事

MEEL在视觉事件预测方面优于基线。MEEL在表中的所有基线中表现最好。结果表明,训练方法使模型能够捕获正确的时间关系从而对未来进行更精确的预测。VQA任务相比,所有模型在视觉事件预测方面的表现都较差,这表明完成这个任务需要更多的知识和推理能力。在OPEN视觉预测中,MEELBERT-SCORE中也获得了最高分。这表明模型可以预测语义相似的事件。

MEEL可以生成高级故事。右图中,发现MEEL可以优于VIST中的所有基线。实验结果表明,MEEL能捕捉更多的情景知识,理解事件间的关系,从而更好地讲述故事。事件图演化影响模型的训练,以确认丰富的事件信息,而不仅仅是浅步推理。

事件图进化过程刺激了对事件的上下文理解。引导辨别进一步减轻了事件推理的幻觉,从而产生更好的性能。

最下面的图

发现当步长太大,即大于4时,性能下降。这可能归因于事件图演化的语义漂移。如果ChatGPT进一步发展,它将生成比种子事件更少的相关内容。

上图进行了消融实验,分别对比MEEL是否含有指导性歧视操作,可以发现没有指导性歧视的实验得分有所下降,验证了指导性歧视的必要性。

Conclusion

### 多模态提示学习在MaPLe框架中的应用 #### MaPLe框架概述 MaPLe(Multi-modal Prompt Learning)旨在通过多模态提示学习提升图像和文本表示之间的一致性。该方法设计的核心在于促进视觉-语言间的强耦合,确保两者能够相互协同工作而不是各自独立发展[^3]。 #### 提示机制的工作原理 为了实现这一目标,在模型的不同阶段引入了不同的提示,这有助于逐步建立并优化不同层次上的特征关联。具体来说,这些提示被嵌入到视觉和语言处理路径的各个转换器层中,使得每一层都能专注于特定类型的跨模态交互模式的学习过程[^4]。 #### 实现细节 以下是Python代码片段展示了如何在一个假设性的场景下初始化一个多模态提示模块: ```python class MultiModalPromptModule(nn.Module): def __init__(self, num_layers=12): super(MultiModalPromptModule, self).__init__() self.prompt_layers = nn.ModuleList([nn.Linear(768, 768) for _ in range(num_layers)]) def forward(self, visual_features, textual_features): combined_features = torch.cat((visual_features, textual_features), dim=-1) outputs = [] for layer in self.prompt_layers: output = F.relu(layer(combined_features)) outputs.append(output) return sum(outputs)/len(outputs) ``` 此代码定义了一个简单的`MultiModalPromptModule`类,它接受来自视觉和文本输入的特征向量作为参数,并返回经过一系列线性变换后的平均结果。实际部署时会更加复杂,涉及更多组件和技术细节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值