【必收藏】DeepMind Flamingo多模态模型全解析:统一视觉与语言的革命性突破

前言

近年来,多模态模型的研究取得了巨大进展。CLIP、BLIP 等视觉语言对比学习方法展现出强大的 zero-shot 分类能力,而 GPT-3 类的大语言模型则通过大规模预训练展现出令人惊叹的 few-shot 推理能力。然而,将“视觉理解能力”与“语言生成能力”统一到一个通用模型中,依然是多模态模型的重大挑战。

DeepMind提出的Flamingo首次将视觉编码器、Perceiver Resampler 架构与大语言模型融合,构建出一种可对图像/视频 + 文本混合输入进行推理的通用视觉语言模型,实现了极强的 few-shot、多任务泛化能力,并在多项基准上刷新SOTA。

Flamingo

Flamingo是一款视觉语言模型,它能够处理多种多模态任务,包括为图像生成描述、进行基于图像的对话、完成分类以及视觉问答

要达成这一目标,需要解决以下关键挑战:

  • 如何以极低成本复用已有的大语言模型?
  • 如何将视觉输入(图像/视频)融入语言模型的推理过程?
  • 如何统一处理不同长度、不同分辨率的视频与图像?
  • 如何构建足够大规模且通用的多模态训练数据?

一、Flamingo 的整体架构

简单易懂的图

从输入中提取图片经过视觉编码器得到视觉特征,然后通过感知重采样器(Perceiver resampler)将视觉特征转换为64个视觉Token,与此同时,原始图文输入中的图像部分被替换为特殊标记 ,从而将多模态输入序列转化为纯文本形式,该序列与大语言模型嵌入层产生的文本表示进行拼接,构成模型的输入。

在进入语言模型后,模型中新增的Cross-Attention模块会读取这64个视觉 Token,然后通过一个可学习的门控系数进行加权,再与原始隐藏状态相加,实现视觉与语言信息的可控融合。

二、视觉编码器(Vision Encoder)

Flamingo 选用 NFNet-F6 作为其视觉编码器骨干网络。该编码器遵循 CLIP 的双编码器架构,通过对比学习进行预训练(文本编码器部分在预训练完成后被舍弃)。与 CLIP 的一个细微区别在于,它采用全局平均池化来产生视觉嵌入,而非注意力池化。编码器最终输出一个二维的空间特征网格,该网格会被展平为后续模块所需的一维序列。对于视频输入,模型以 1 FPS 的速率采样帧,并将各帧提取出的视觉特征进行拼接,以作为视频的总体表示。

三、感知重采样器(Perceiver resampler)

为处理视频输入,Flamingo 设计了一套可变长度帧序列的视觉特征提取流程。具体而言,模型首先对数量不定的输入视频帧进行逐帧编码,从而生成相应数量的视觉特征。为将可变特征统一为固定维度的表示,模型引入感知重采样器,将其输出约束为 64 个视觉标记,以控制计算复杂度。

在特征处理阶段,系统会向每帧视觉特征中添加时序编码,以保留帧间时间顺序信息。随后,所有视觉特征被展平为一条一维序列,并与一组预先学得的、数量同为 64 的查询向量进行组合。二者共同经由交叉注意力机制与前馈网络层进行交互与融合。

需要特别指出的是,Flamingo 在注意力机制中做了一项关键调整:其key/value是由query与视觉token拼接而成的。

四、门控交叉注意力:Gated X-Attention

Flamingo 采用预训练的 Chinchilla 模型作为其核心语言模型,并在整个多模态训练过程中保持其参数冻结,以完整保留其在大规模纯文本语料上获得的世界知识与语言生成能力。

为实现视觉信息与语言模型的深度融合,Famingo 在冻结的 Chinchilla 模型的层与层之间,插入了新设计的“门控交叉注意力模块”。这些模块负责处理视觉信息,其参数是从头开始训练的。

在模型结构细节上,它遵循了 GPT-2 的架构风格,对所有注意力模块的输入以及前馈神经网络层都应用了层归一化。

尤为关键的是其门控机制:每个新插入的交叉注意力模块的输出都会通过一个 tanh 门控单元。该门控由一个层特定的、可学习的标量参数 𝛼 控制,并且在模型初始化时,这些 𝛼 被刻意设置为零。这一设计确保了在训练开始时,门控输出为零,整个模型退化为原始的语言模型行为,从而保证了训练的稳定性,让模型能够平滑地从单模态向多模态任务过渡。

五、训练数据(构建大规模多模态语料库)

图文混排数据:采用M3W数据集涵盖4300万个网页,每个训练序列限制在256个token以内,并支持单序列最多5张图像的交错排列。

图像文本对:ALIGN数据集提供18亿网络级图文对,平均文本长度12.4个token;LTIP数据集则包含3.12亿个长文本图文对,平均文本长度20.5个token。

视频文本对:VTP数据集包含2700万个短视频和文本对。

挑战在于网页数据中的图文关系往往很弱,为此作者采用:

  • 多源数据混合
  • 加权负对数似然损失
  • Accumulation strategy(稳定训练)

总体损失函数为:

不同数据源权重 λm 是性能表现的关键。

实验结果表明,对训练数据进行加权配比,其效果优于直接混合数据或轮流从各数据集中采样的方法。

普通人如何抓住AI大模型的风口?

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述

AI大模型开发工程师对AI大模型需要了解到什么程度呢?我们先看一下招聘需求:

在这里插入图片描述

知道人家要什么能力,一切就好办了!我整理了AI大模型开发工程师需要掌握的知识如下:

大模型基础知识

你得知道市面上的大模型产品生态和产品线;还要了解Llama、Qwen等开源大模型与OpenAI等闭源模型的能力差异;以及了解开源模型的二次开发优势,以及闭源模型的商业化限制,等等。

img

了解这些技术的目的在于建立与算法工程师的共通语言,确保能够沟通项目需求,同时具备管理AI项目进展、合理分配项目资源、把握和控制项目成本的能力。

产品经理还需要有业务sense,这其实就又回到了产品人的看家本领上。我们知道先阶段AI的局限性还非常大,模型生成的内容不理想甚至错误的情况屡见不鲜。因此AI产品经理看技术,更多的是从技术边界、成本等角度出发,选择合适的技术方案来实现需求,甚至用业务来补足技术的短板。

AI Agent

现阶段,AI Agent的发展可谓是百花齐放,甚至有人说,Agent就是未来应用该有的样子,所以这个LLM的重要分支,必须要掌握。

Agent,中文名为“智能体”,由控制端(Brain)、感知端(Perception)和行动端(Action)组成,是一种能够在特定环境中自主行动、感知环境、做出决策并与其他Agent或人类进行交互的计算机程序或实体。简单来说就是给大模型这个大脑装上“记忆”、装上“手”和“脚”,让它自动完成工作。

Agent的核心特性

自主性: 能够独立做出决策,不依赖人类的直接控制。

适应性: 能够根据环境的变化调整其行为。

交互性: 能够与人类或其他系统进行有效沟通和交互。

img

对于大模型开发工程师来说,学习Agent更多的是理解它的设计理念和工作方式。零代码的大模型应用开发平台也有很多,比如dify、coze,拿来做一个小项目,你就会发现,其实并不难。

AI 应用项目开发流程

如果产品形态和开发模式都和过去不一样了,那还画啥原型?怎么排项目周期?这将深刻影响产品经理这个岗位本身的价值构成,所以每个AI产品经理都必须要了解它。

img

看着都是新词,其实接触起来,也不难。

从0到1的大模型系统学习籽料

最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师(吴文俊奖得主)
在这里插入图片描述

给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

图片

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。
在这里插入图片描述

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

  • 基础篇,包括了大模型的基本情况,核心原理,带你认识了解大模型提示词,Transformer架构,预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门AI大模型
  • 进阶篇,你将掌握RAG,Langchain、Agent的核心原理和应用,学习如何微调大模型,让大模型更适合自己的行业需求,私有化部署大模型,让自己的数据更加安全
  • 项目实战篇,会手把手一步步带着大家练习企业级落地项目,比如电商行业的智能客服、智能销售项目,教育行业的智慧校园、智能辅导项目等等

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

AI时代,企业最需要的是既懂技术、又有实战经验的复合型人才,**当前人工智能岗位需求多,薪资高,前景好。**在职场里,选对赛道就能赢在起跑线。抓住AI这个风口,相信下一个人生赢家就是你!机会,永远留给有准备的人。

如何获取?

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值