NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链

提出ScienceQA数据集,用于评估模型的多模态推理与解释能力。该数据集包含21,208个带有详细解释的多选题,涵盖了自然科学、社会科学和语言学等领域。
AI助手已提取文章相关产品:

转载自 | 机器之心

在回答复杂的问题时,人类可以理解不同模态的信息,并形成一个完整的思维链(Chain of Thought, CoT)。深度学习模型是否可以打开「黑箱」,对其推理过程提供一个思维链呢?近日,UCLA 和艾伦人工智能研究院(AI2)提出了首个标注详细解释的多模态科学问答数据集 ScienceQA,用于测试模型的多模态推理能力。在 ScienceQA 任务中,作者提出 GPT-3 (CoT) 模型,即在 GPT-3 模型中引入基于思维链的提示学习,从而使得模型能在生成答案的同时,生成相应的推理解释。GPT-3 (CoT) 在 ScienceQA 上实现了 75.17% 的准确率;并且人类评估表明,其可以生成较高质量的解释。

像人类一样有效地学习并完成复杂的任务是人工智能追求的长远目标之一。人类在决策过程中可以遵循一个完整的思维链(CoT)推理过程,从而对给出的答案做出合理的解释。

然而,已有的机器学习模型大多依赖大量的输入 - 输出样本训练来完成具体的任务。这些黑箱模型往往直接生成最终的答案,而没有揭示具体的推理过程。

科学问答任务(Science Question Answering)可以很好地诊断人工智能模型是否具有多步推理能力和可解释性。为了回答科学问题,一个模型不仅需要理解多模态内容,还需要提取外部知识以得出正确答案。同时,一个可靠的模型还应该给出揭示其推理过程的解释。然而,目前的科学问答数据集大多缺乏对答案的详细解释,或者局限于文字模态。

因此,作者收集了全新的科学问答数据集 ScienceQA,它包含了 21,208 道来自中小学科学课程的问答多选题。一道典型的问题包含多模态的背景(context)、正确的选项、通用的背景知识(lecture)以及具体的解释(explanation)。

 

要回答上图所示的例子,我们首先要回忆关于力的定义:「A force is a push or a pull that ... The direction of a push is ... The direction of a pull is ... 」,然后形成一个多步的推理过程:「The baby’s hand applies a force to the cabinet door. → This force causes the door to open. → The direction of this force is toward the baby’s hand. 」,最终得到正确答案:「This force is a pull. 」。

在 ScienceQA 任务中,模型需要在预测答案的同时输出详细地解释。在本文中,作者利用大规模语言模型生成背景知识和解释,作为一种思维链(CoT)来模仿人类具有的多步推理能力。

实验表明,目前的多模态问答方法在 ScienceQA 任务不能取得很好的表现。相反,通过基于思维链的提示学习,GPT-3 模型能在 ScienceQA 数据集上取得 75.17% 的准确率,同时可以生成质量较高的解释:根据人类评估,其中 65.2% 的解释相关、正确且完整。思维链也可以帮助 UnifiedQA 模型在 ScienceQA 数据集上取得 3.99% 的提升。

 

  1. 论文链接:https://arxiv.org/abs/2209.09513
  2. 代码链接:GitHub - lupantech/ScienceQA: Data and code for NeurIPS 2022 Paper "Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering".
  3. 项目主页:ScienceQA: Science Question Answering
  4. 数据可视化:Explore | ScienceQA: Science Question Answering
  5. Leaderboard:Leaderboard | ScienceQA: Science Question Answering

1

『ScienceQA数据集』

数据集统计

ScienceQA 的主要统计信息如下所示。

 

ScienceQA 数据集的一个例子。

ScienceQA 数据集的主要信息

ScienceQA 包含 21208 个例子, 其中有 9122 个不同的问题(question)。10332 道(48.7%)有视觉背景信息,10220 道(48.2%)有文本背景信息,6532 道(30.8%)有视觉 + 文本的背景信息。绝大部分问题标注有详细的解释:83.9% 的问题有背景知识标注(lecture),而 90.5% 的问题有详细的解答(explanation)。

 

ScienceQA 数据集中问题和背景分布。

数据集主题分布

不同于已有的数据集,ScienceQA 涵盖自然科学、社会科学和语言学三大学科分支,包含 26 个主题(topic)、127 个分类(category)和 379 个知识技能(skill)。

 

ScienceQA 的主题分布。

数据集词云分布

如下图的词云分布所示,ScienceQA 中的问题具有丰富的语义多样性。模型需要理解不同的问题表达、场景和背景知识。

 

ScienceQA 的词云分布。

数据集比较

ScienceQA 是第一个标注详细解释的多模态科学问答数据集。相比于已有的数据集,ScienceQA 的数据规模、题型多样性、主题多样性等多个维度体现了优势。

 

ScienceQA 数据集与其它科学问答数据集的比较。

2

『模型和方法』

Baselines

作者在 ScienceQA 数据集了评估不同的基准方法,包括 VQA 模型如 Top-Down Attention、MCAN、BAN、DFAF、ViLT、Patch-TRM 和 VisualBERT,大规模语言模型如 UnifiedQA 和 GPT-3,以及 random chance 和 human performance。对于语言模型 UnifiedQA 和 GPT-3,背景图片会被转换成文本形式的注释(caption)。

GPT-3 (CoT)

最近的研究工作表明,在给定合适的提示后,GPT-3 模型可以在不同的下游任务表现出卓越的性能。为此,作者提出 GPT-3 (CoT) 模型,在提示中加入思维链(CoT),使得模型在生成答案的同时,可以生成对应的背景知识和解释。

具体的提示模板如下图所示。其中 Ii 表示训练例子,It 表示测试例子。训练例子包含问题(Question)、选项(Options)、背景(Context)和答案(Answer)元素,其中答案由正确答案、背景知识(Lecture)和解释(Explanation)组成。GPT-3 (CoT) 会根据输入的提示信息,补全测试例子的预测答案、背景知识和解释。

 

GPT-3 (CoT) 采用的提示模板。


3

『实验与分析』

实验结果

不同的基准和方法在 ScienceQA 测试集上的准确率结果如下表所示。当前最好的 VQA 模型之一的 VisualBERT 只能达到 61.87% 的准确率。在训练的过程引入 CoT 数据,UnifiedQA_BASE 模型可以实现 74.11% 的准确率。而 GPT-3 (CoT) 在 2 个训练例子的提示下,实现了 75.17% 的准确率,高于其它基准模型。人类在 ScienceQA 数据集上表现优异,可以达到 88.40% 的总体准确率,并且在不同类别的问题上表现稳定。

 

生成解释的评估

作者用自动评估指标如 BLEU-1、BLEU-2、ROUGE-L 和 Sentence Similarity 评估了不同方法生成的解释。由于自动评估指标只能衡量预测结果和标注内容的相似性,因此作者进一步采用了人工评估的方法,来评估生成解释的相关性、正确性和完整性。可以看到,GPT-3 (CoT) 生成的解释中 65.2% 符合了 Gold 标准。

 

不同评估方法对生成解释的结果。

不同的提示模板

作者比较了不同的提示模板对 GPT-3 (CoT) 准确率的影响。可以看到在 QAM-ALE 的模板下,GPT-3 (CoT) 可以获得最大的平均准确率和最小的方差。另外,GPT-3 (CoT) 在 2 个训练例子的提示下,表现最佳。

 

不同提示模板的结果比较。

模型上限

为了探索 GPT-3 (CoT) 模型的性能上限,作者把标注的背景知识和解释加入模型的输入(QCMLE*-A)。我们可以看到 GPT-3 (CoT) 可以实现高达 94.13% 的准确率。这也提示了模型提升的一个可能方向:模型可以进行分步推理,即先检索到准确的背景知识和生成准确的解释,然后把这些结果作为输入。这个过程和人类解决复杂问题的过程很相似

 

GPT-3 (CoT) 模型的性能上限。

不同的 ALE 位置

作者进一步讨论了 GPT-3 (CoT) 在生成预测时,不同的 ALE 位置对结果的影响。在 ScienceQA 上的实验结果表明,如果 GPT-3 (CoT) 先生成背景知识 L 或解释 E,再生成答案 A,其预测准确率会大幅下降。其主要原因是背景知识 L 和解释 E 有较多的词语数量,如果先生成 LE,GPT-3 模型有可能用完最大词数,或者提前停止生成文本,从而不能得到最终的答案 A。

 

不同的 LE 位置。

成功案例

如下 4 个例子中,GPT-3 (CoT) 不但能生成正确的答案,也能给出相关、正确且完整的解释。这说明 GPT-3 (CoT) 在 ScienceQA 数据集上表现出较强的多步推理和解释能力

 

 

 

 

 

失败案例 I

在下面的三个例子中,GPT-3 (CoT) 虽然生成了正确的答案,但是生成的解释不相关、不正确或者不完整。这说明 GPT-3 (CoT) 对于生成逻辑一致的长序列还面临较大的困难。

 

 

 

GPT-3 (CoT) 能生成正确答案、但是生成的解释不正确的例子。

失败案例 II

在下面的四个例子中,GPT-3 (CoT) 不能生成正确的答案,也不能生成正确的解释。其中的原因有:(1)当前的 image captioning 模型还不能准确地描述示意图、表格等图片的语义信息,如果用图片注释文本表示图片,GPT-3 (CoT) 还不能很好地回答包含图表背景的问题;(2)GPT-3 (CoT) 生成长序列时,容易出现前后不一致(inconsistent)或不连贯(incoherent)的问题;(3)GPT-3 (CoT) 还不能很好地回答需要特定领域知识的问题。

 

 

 

GPT-3 (CoT) 能生成错误答案和解释的例子。

4

『结论与展望』

作者提出了首个标注详细解释的多模态科学问答数据集 ScienceQA。ScienceQA 包含 21208 道来自中小学科学学科的多选题,涵盖三大科学领域和丰富的话题,大部分问题标注有详细的背景知识和解释。ScienceQA 可以评估模型在多模态理解、多步推理和可解释性方面的能力。作者在 ScienceQA 数据集上评估了不同的基准模型,并提出 GPT-3 (CoT) 模型在生成答案的同时,可以生成相应的背景知识和解释。大量的实验分析和案例分析对模型的改进提出了有利的启发。

主要参考文献

[1] Pan Lu, Swaroop Mishra, Tony Xia, Liang Qiu, Kai-Wei Chang, Song-Chun Zhu, Oyvind Tafjord, Peter Clark, Ashwin Kalyan, et al. Learn to explain: multimodal reasoning via thought chains for science question answering. In Advances in neural information processing systems (NeurIPS), 2022.

[2] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. Chain of thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903, 2022.

[3] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. In Advances in neural information processing systems (NeurIPS), 2020.

[4] Daniel Khashabi, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, and Hannaneh Hajishirzi. UnifiedQA: Crossing format boundaries with a single qa system. In Findings of the Association for Computational Linguistics (EMNLP), 2020.

[5] Aniruddha Kembhavi, Minjoon Seo, Dustin Schwenk, Jonghyun Choi, Ali Farhadi, and Hannaneh Hajishirzi. Are you smarter than a sixth grader? textbook question answering for multimodal machine comprehension. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

您可能感兴趣的与本文相关内容

<think>嗯,用户是一位研一计算机专业的学生,目标明确要成为多模态模型方向的AI算法工程师。从ta的提问方式看,已经具备一定专业认知,引用的资料也显示ta做过初步调研。不过研一阶段可能对具体技术路径还比较模糊,需要更落地的学习方案。 用户上次提问时我给出了三年规划,这次ta特别提到要参考站内引用[1]-[5],说明更关注具体技术细节和资源。尤其引用[4]那本《多模态模型:技术原理与实战》的目录很有价值,应该作为主线参考。用户隐含需求可能是:如何把厚厚的理论教材拆解成可执行的阶段性任务。 注意到用户两次都强调“系统性学习”,这很关键。多模态涉及的知识树太庞大,容易陷入碎片化学习。需要帮ta建立“理论-代码-实战”的闭环:比如学完CLIP论文[^1]立即用Hugging Face实现,再在COCO数据集上做zero-shot测试。 用户引用的资源里有个宝藏是OpenFlamingo项目[^1],这是Meta开源的视觉语言模型,比纯看论文更直观。研一阶段直接跑通它的demo会很有成就感,建议列为必做项。另外医疗影像方向可能被低估了,引用[5]提到的视觉-触觉-语言多模态在手术机器人中应用前景很好,如果用户实验室有相关资源值得重点投入。 ta的焦虑点应该是时间分配:既要打基础(数学、深度学习),又要追前沿(Diffusion、LLaVA)。解决方案是“三明治学习法”:基础模块(30%)+核心论文精读(40%)+项目实战(30%),用PyTorch Lightning这类框架减少工程负担。 最后提醒自己:避免堆砌资源!用户需要的是过滤器。比如数据集只推荐最具代表性的LAION-5B和AudioSet,框架重点标注PyTorch和DeepSpeed——太多选择反而增加决策负担。</think>基于你的研一阶段和职业目标,以下是系统学习多模态技术的路径规划和资源推荐,结合核心技术和引用资源进行优化: --- ### **系统性学习路径**(分阶段推进) #### **阶段1:基础巩固(1-3个月)** 1. **数学与编程核心** - 线性代数:矩阵分解($A=U\Sigma V^T$)、张量运算 - 概率论:贝叶斯推断、变分自编码器(VAE)的数学基础 - Python高阶:异步计算、元编程(如`__metaclass__`) - 框架入门:PyTorch动态图机制与自动微分 2. **单模态模型精研** - 视觉:ViT模型(`transformers.ViTModel`)的Patch Embedding实现 - 文本:BERT的Masked Language Modeling损失函数: $$ \mathcal{L}_{MLM} = -\sum_{i \in M} \log P(x_i | x_{\backslash M}) $$ - 音频:VGGish的音频特征提取架构[^1] --- #### **阶段2:多模态核心技术(4-9个月)** 1. **融合方法实践** - **早期融合**:特征拼接(`torch.cat([text_feat, img_feat], dim=1)`) - **晚期融合**:多模态集成学习(如模型投票)[^2] - **联合建模**:复现CLIP的对比学习: ```python # Hugging Face实现示例 from transformers import CLIPModel model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32") ``` - 损失函数:$ \mathcal{L}_{\text{contrast}} = -\log \frac{\exp(\text{sim}(I,T)/\tau)}{\sum_{k}\exp(\text{sim}(I_k,T)/\tau)} $[^1] 2. **领域应用开发** - 多模态问答:使用`ViltForQuestionAnswering`在VQA-v2数据集微调 - 情感分析:融合文本+音频特征(如CMU-MOSEI数据集) - 医疗影像:基于CheXpert数据的病理报告生成[^5] --- #### **阶段3:工业级实战(研二起)** 1. **大模型训练优化** - 分布式训练:DeepSpeed的ZeRO-3策略 - 高效微调:LoRA($\Delta W = BA$, $B \in \mathbb{R}^{d \times r}$) - 模型压缩:知识蒸馏($ \mathcal{L}_{KD} = \tau^2 \sum p_T \log(p_S/p_T) $) 2. **部署与推理** - 模型量化:TensorRT INT8校准 - 服务化:Triton推理服务器部署多模态pipeline --- ### **关键资源推荐** #### **1. 教材与课程** | 资源 | 内容重点 | 接/来源 | |------|----------|-----------| |多模态模型:技术原理与实战》 | 融合方法/部署优化 [^4] | 机械工业出版社 | | Stanford CS330 | 多任务与元学习 | 官网公开课 | | AWS《机器学习生产化工程》 | 工业级部署 | AWS Training | #### **2. 数据集** | 名称 | 模态 | 规模 | 用途 | |------|------|------|------| | **COCO** | 图文对 | 33万+ | 目标检测/图文匹配 | | **LAION-5B** | 图文对 | 58亿 | 预训练[^1] | | **AudioSet** | 音频+标签 | 200万 | 事件分类 | #### **3. 开源项目** - **OpenFlamingo**:支持图像-文本生成的类GPT模型 [^1] ```bash git clone https://github.com/mlfoundations/open_flamingo ``` - **LLaVA**:视觉语言助手(类似多模态ChatGPT) - **Hugging Face Transformers**:直接调用CLIP/Flamingo等模型 #### **4. 论文精读清单** 1. **奠基性工作**: - CLIP (ICML 2021) : 图文对比学习 - ViLT (ICML 2021) : 轻量级多模态Transformer 2. **前沿进展**: - LLaVA (NeurIPS 2023) : 视觉指令微调 - ImageBind (CVPR 2023) : 六模态统一表征 --- ### **能力培养矩阵** | 能力维度 | 具体目标 | 实现方式 | |----------|----------|----------| | **理论基础** | 理解多模态对齐原理 | 精读CLIP/ImageBind论文[^1][^3] | | **工程能力** | 千卡集群训练管理 | 阿里云PAI实战[^2] | | **创新思维** | 设计融合架构 | 实验室科研项目(如医疗多模态)[^5] | | **领域知识** | 垂直场景应用 | 参与自动驾驶/医疗影像项目 | --- ### 相关问题 1. 多模态模型训练中如何处理不同模态的数据量差异? 2. 如何评估多模态模型在跨模态检索任务中的性能? 3. 边缘设备部署多模态模型时,有哪些轻量化技术可选? 4. 多模态模型在医疗诊断中的伦理风险如何规避? 5. 如何构建合规的大规模多模态预训练数据集
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值