【还是写写优快云自我激励一下吧 哈哈】
今天分享的是亚马逊推出的multimodal-COT,使用多模态数据触发CoT进行推理问答,在参数量小于 10 亿的情况下,在 ScienceQA 基准测试中,比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%),甚至超过了许多人类。
论文:https://arxiv.org/pdf/2302.00923.pdf
源码:https://github.com/amazon-science/mm-cot
Problem
- 目前大规模语言模型在利用思维链进行复杂推理时都仅考虑了单模态(语言模态)
- 当参数量小于1千亿(100 billion)的时候,LMs容易胡说八道(hallucinated rationales)从而产生错误答案。
多模态CoT任务示例
输入:Question text (Q), context text ©, multiple options (M)
输出:answer (A) 或 以rationale为条件给出answer(RA)或 先给答案再给rationale(AR)
Motivation
- 经过系列实验,作者有以下观察:
观察1:没有R比有R好,推测可能是因为模型胡言乱语(hallucinated rationales),误导了答案。
观察2:加入视觉模态特征可以大幅度修正模型胡言乱语的情况。 - 于是乎,作者就提出了两阶段的multimodal-CoT,先用文本和视觉两类特征得到较为准确的rationale(R),然后再由R和文本以及视觉特征得到最后的answer。
模型框架
分为rationale generation和answer inference两阶段,它们使用相同的模型但是输入和输出不同
(1)rationale generation
输入:X = {X1 language , Xvision}
输出:R = F(X)
(2)answer inference
输入:X0 = {X2 language , Xvision}
其中,X2 language = X1 language ◦ R(◦表示拼接)
输出:A = F(X0 )
分别为两个阶段有监督训练了两个模型
模型结构
可以分为encoding、interaction和decoding三步
总体目标
(1)Encoding
H_language = LanguageEncoder(X_language),
使用Transformer model 【T5的encoder】
H_vision = W_h · VisionExtractor(X_vision)
使用 DETR提取patch-level vision feature
(2) Interaction
使用单头注意力网络将文本token和图像patch相关联
Query=H_language, Key=H_vision, Value=H_vision
用门控机制融合
(3)Decoding
用的T5的Decoder
整个算法过程:
Experiment
a. 数据集:ScienceQA,首个标注详细解释的多模态科学问答数据集。
b. 实验结果: