从BLIP3o到BLIP3o-NEXT：迈向统一生成与理解的多模态大模型

从BLIP3o到BLIP3o-NEXT多模态大模型直播分享

原创已于 2025-08-15 13:16:14 修改 · 288 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-08-15 13:10:07 首次发布

青稞Talk 专栏收录该内容

78 篇文章

订阅专栏

青稞社区官网：https://qingkeai.online/
报名：https://mp.weixin.qq.com/s/PLezFNWB5_Z-M8UXyVsZtQ

BLIP3o-NEXT architecture with discrete image token supervision. The autoregressive model generates discrete image tokens, and their hidden representations serve as conditions for the diffusion model. We jointly optimize both CrossEntropy and Flow-Matching objective during training.
在这里插入图片描述

8月19日（周二）晚8点，青稞Talk 第73期，马里兰大学博士生陈玖海，将直播分享《从BLIP3o到BLIP3o-NEXT：迈向统一生成与理解的多模态大模型》。

主题提纲

从BLIP3o到BLIP3o-NEXT：迈向统一生成与理解的多模态大模型

1、对比分析离散与连续两类视觉生成建模方式的原理及优势
2、探讨不同视觉表征在多模态大模型中的特性与性能差异
3、如何利用强化学习方法有效提升视觉生成质量

直播时间

8月19日20:00 - 21:00

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

青稞AI

关注关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

BLIP3-o：一系列完全开源的统一多模态模型——架构、训练与数据集

AI浩

05-24

1434

在近期关于多模态模型的研究中，将图像理解与生成统一起来受到了越来越多的关注。尽管图像理解的设计选择已经得到了广泛研究，但对于具有图像生成功能的统一框架而言，其最优模型架构和训练方案仍有待进一步探索。鉴于自回归和扩散模型在高质量生成和可扩展性方面具有强大潜力，我们对它们在统一多模态环境中的使用进行了全面研究，重点关注图像表示、建模目标和训练策略。基于这些研究，我们提出了一种新方法，该方法采用扩散Transformer生成语义丰富的CLIP图像特征，这与传统的基于VAE的表示方法不同。

多模态“啊哈时刻”：自编码器如何让理解与生成真正相爱相杀

欢迎来到我的博客

09-22

712

当前多模态模型的“统一”多是伪命题。北大与百度团队提出UAE框架，以自编码器视角和重建目标，首次实现理解与生成的相互成就与协同进化，数据验证“啊哈时刻”真实存在。大家好，我是肆〇柒。今天这篇论文是一项来自北京大学与百度ERNIE团队的研究。面对当前多模态模型“理解”与“生成”模块貌合神离、甚至相互拖后腿的行业困局，这支研究团队另辟蹊径，提出了一种名为UAE的全新框架，不仅让二者真正“统一”，更催生了令人振奋的“啊哈时刻”。

参与评论您还未登录，请先登录后发表或查看评论

(Arxiv-2025) BLIP3-o：一个完全开源的统一多模态模型家族——架构、训练与数据集

顾道长生的科研笔记

06-30

1963

BLIP3-o：一个完全开源的统一多模态模型家族摘要：本文提出BLIP3-o，一个支持图像理解和生成的开源统一多模态模型家族。通过系统研究自回归与扩散模型的结合方式，我们发现：(1)采用CLIP图像特征比VAE特征更高效且语义更丰富；(2)流匹配损失优于MSE损失；(3)顺序式"先理解后生成"的预训练策略效果最佳。基于这些发现，我们设计了基于扩散Transformer的架构，生成CLIP特征而非传统像素特征。此外，我们构建了BLIP3o-60k高质量指令微调数据集，通过GPT-4o生成

BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Dataset

Together_CZ的博客

08-14

1174

BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Dataset——BLIP3-o：一个完全开放的统一多模态模型家族——架构、训练和数据集

DeepSeek-VL: Towards Real-World Vision-Language Understanding——迈向现实世界的视觉-语言理解

Together_CZ的博客

06-22

981

DeepSeek-VL: Towards Real-World Vision-Language Understanding——迈向现实世界的视觉-语言理解

AIGCer的博客

05-11

2071

本文综述了统一多模态理解与生成模型的最新进展、挑战与机遇。首先，文章介绍了多模态理解与文本生成图像模型的基础概念，并梳理了现有统一模型的三大架构范式：基于扩散的架构、基于自回归的架构，以及融合自回归与扩散机制的混合架构。随后，文章整理了适配统一模型的数据集与评测基准，为后续研究提供资源支持。文章还探讨了该领域面临的核心挑战，包括分词策略、跨模态注意力机制与数据问题。

第九章：大型多模态模型 (MLLMs) 的崛起：当大语言模型“睁开双眼”，AI开始理解世界

YPeng_Gao的博客

06-24

757

如何将大型语言模型（LLM）那强大的语言理解、生成、推理乃至世界知识能力，有效地迁移和扩展到多模态领域，从而创造出一个能够“看懂世界并与之对话”的通用AI？

深入浅出多模态融合视觉：从CLIP到VQA的跨模态理解之旅

AladdinEdu，你的AI学习实践工作坊。让想法落地，让研究加速。助力高校AI人才成长，点亮创新未来。

10-01

997

本文系统地探讨了多模态人工智能的核心领域——视觉与语言的跨模态理解。文章深入解析了以CLIP为代表的对比学习模型原理及其在零样本分类与跨模态检索中的革命性应用；详细阐述了视觉问答系统的核心技术路线与实现细节，包括注意力机制的巧妙运用；剖析了基于Attention的Encoder-Decoder架构在图像描述生成任务中的核心作用；最后，展望了VL-BERT、OFA等新一代多模态预训练大模型的技术范式与应用微调策略。通过理论推导、代码片段与示意图相结合的方式，本文旨在为读者构建一个从理论基础到工程实践的完整知识

信息化与数字化 | 万字长文：OCR/多模态大模型评测体系全景

csdn_xmj的博客

05-21

1902

本文将系统梳理当前主流的多模态评测基准，包括 OCRBench v2、SEED-Bench-2-Plus、ConTextual、Fox、TableVQA-Bench、ComTQA、MMTab-eval、ChartY、ChartX、MMC、CC-OCR、Video-MME、MME、BLINK、ChEF、GenCeption、DesignQA、MMT-Bench与Omni AI OCR Benchmark 等，通过对其提出背景、作者机构、任务设计、评估指标、模型适用性等方面进行分析比较，帮助读者全面理解当前多模

51c多模态~合集4

whaosoft~aiotの开发板商城

01-17

1483

在选购家具时，我们常常会试图回忆起自己的客厅，以想象某个心仪的柜子是否合适。然而，估算距离并不容易，但即便仅仅观察一次，人类也能在脑海中重构空间，回忆房间中的物体、它们的位置及尺寸。我们生活在一个感官丰富的三维世界中，周围充满视觉信号，这些信号为我们的感知、理解和互动提供了基础。视觉-空间智能包括感知和在脑海中操控空间关系，这需要多种能力的支持，例如关系推理以及在自我中心（egocentric）和他人中心（allocentric）视角之间的转换能力。

掌握AI人工智能自然语言处理的前沿技术

AI天才研究院

05-11

1049

随着ChatGPT、GPT-4、Google Gemini等技术突破，自然语言处理（NLP）已从单一任务处理迈向通用智能交互阶段。核心架构演进：从基础Transformer到稀疏化、轻量化变体预训练范式革新：从单向语言模型到多任务对齐、指令微调跨模态融合：语言与视觉、语音的深度交互技术低资源处理：小语种与领域数据匮乏场景的解决方案生成式AI：文本创作、代码生成、逻辑推理的工程实现核心概念：解析Transformer架构、预训练模型原理与多模态技术框架技术纵深。

知识蒸馏在CNN中的应用：让小模型获得大模型90%“感知力”的秘密

知识蒸馏作为一种有效的模型压缩技术，能够将大型教师模型所学的“暗知识”迁移到轻量子模型中，实现性能与效率的平衡。近年来，研究者开始探索将知识蒸馏深度融入CNN架构特性中，利用中间层特征、注意力机制等信息...

深度学习下载包时可能会遇到的问题及解决方案

最新发布

m0_50481455的博客

12-09

248

若确实下载安装了CUDA ，但是此时输出的CUDA是否可用为否，应该是torch的版本为cpu版本导致，刚刚的下载包的语句如果总是下载的是cpu版本，我们考虑直接去网站下指定包，再进行安装。CUDA Version表示的是驱动支持的最高 CUDA 版本，去官网下载 CUDA ，我这里是12.2，表示下载的版本最大只能是12.2。然后下载包时，比如本地环境是Python3.9，找包下载时候，3.9要下对应cp39的包。下载好后，执行语句安装。

【论文速递】2025年第34周(Aug-17-23)(Robotics/Embodied AI/LLM)

淋曦的进击手记

12-07

1380

自我监督的学习有望消除对手动数据注释的需求，从而使模型能够毫不费力地扩展到大规模的数据集和较大的体系结构。通过不针对特定的任务或领域量身定制，这种训练范式有可能使用单个算法从不同的来源学习视觉表示形式，从自然到航空图像。该技术报告介绍了Dinov3，这是通过利用简单而有效的策略来实现这一愿景的主要里程碑。首先，我们利用仔细的数据准备，设计和优化来扩展数据集和模型大小的好处。其次，我们介绍了一种称为GRAM锚定的新方法，该方法有效地解决了长期训练时间表中已知但未解决的密集特征映射降解的问题。

人工智能的基石之三：硬件

最简单的方法，解决最实际的问题。

12-05

698

高性能硬件是人工智能的基石，尤其是在机器学习和深度学习领域，海量数据是常态。从充当计算机大脑的中央处理器 (CPU) 到加速计算的图形处理器 (GPU)，硬件的作用是提供处理和运行复杂数据算法所需的原始能力。

AI泡沫什么时候破？

脑极体

12-04

814

而AI企业面对的短期形势，可能更为严峻。而AI公司和技术服务商，为了迎合决策者或拿下B端大项目，往往不计成本的低价竞标，无视人工成本的驻场开发，技术价值让位于领导偏好，企业自身也深陷人效黑洞，沦为挣辛苦钱的技术外包。To B/G不赚钱，To C也卖不上价，所以目前AI领域唯一清晰的商业模式，就是类似英伟达的“卖铲人”模式，卖加速卡和算力的企业成了这一轮AI浪潮的最大受益人。去伪存真之后，资本会冷却，叙事会修正，共识会重新凝聚，而那些持续追问“AI如何创造真实价值”的人，会与行业一同穿越周期，走向成熟。

LLM交互工具汇总：Open WebUI、ChatBot-UI、浏览器插件、Studio

lonelymanontheway的博客

12-05

798

Open WebUI、实战、mcpo、ChatBot-UI、实战、轻量级、浏览器插件、Page Assist、ollama-ui、Studio类工具、Cherry Studio、LM Studio、Msty Studio、参考、

宝马，如何建设一座AI汽车工厂？｜产业AI案例

chanyejiawang的博客

12-08

849

AI汽车时代来袭

建筑数字孪生与AI：工地数据化与智能决策解析

Azhiyuanshijie的博客

12-04

397

数字孪生整合BIM模型、无人机影像、传感器数据，构建工地虚拟模型。施工状态、材料使用、设备运行数据被实时采集，支撑预测与优化。服务，将算法嵌入实际施工管理系统，实现数据采集、分析、优化和决策闭环。系统可与BIM、ERP集成，形成完整数字孪生解决方案。通过虚拟映射和AI算法，施工过程从经验驱动转向数据驱动。数字孪生+AI，让工地变成“数据实验室”，提升效率、降低风险，并推动建筑企业迈向智能化时代。，企业可展示施工技术实力，实现品牌影响力和潜在客户转化。：AI提出最优施工方案，提升效率和安全。

BLIP模型实战：多模态文本-视频打架行为检测与检索

项目利用BLIP大模型的多模态功能，可以对视频中的特定行为（如打架）进行检测，并且可以轻松扩展到其他行为的识别。项目提供了详细的执行流程，包括创建和激活conda虚拟环境，安装依赖，以及一键执行脚本。检测结果...