Deepoc大型多模态模型相关工作
2.1 大型多模态模型
基于大型语言模型(LLM)的突破性进展,大型多模态模型(LMM)
通过预训练视觉编码器(如ResNet-50、ViT)将图像特征映射至LLM嵌入空间,实现了跨模态语义对齐。代表性工作如Chameleon和Transfusion通过自回归建模或扩散生成范式,构建了统一的视觉-语言表征空间。然而,现有方法面临两大挑战:
- 无编码器架构的局限性:直接对齐原始视觉特征的无编码器方法(如LLaVA)在细粒度理解任务中准确率较基于CLIP对齐的模型低12-18%;
- 数据依赖瓶颈:高质量图文对数据(>10M)的获取成本高昂,导致模型语言建模能力与视觉理解能力难以协同优化。
近期研究
提出UniToken方案,通过连续(SigLIP)与离散(VQ-GAN)双编码器融合策略,在保持生成保真度的同时提升跨任务性能,验证了多模态表征统一化的可行性。2.2 视觉生成模型
视觉生成领域呈现两大技术路径:
- 扩散模型:通过迭代去噪过程生成高质量图像/视频,典型代表包括Stable Diffusion和Imagen,其优势在于对复杂语义的细粒度控制;
- 自回归模型:基于LLM架构实现序列生成,如DALL-E 3通过CLIP特征引导文本到图像生成,但面临长程依赖建模不足的问题。
混合范式研究尝试结合两者优势,例如BLIP3-o
采用扩散生成器与自回归解码器的级联架构,在图像编辑任务中实现8.7%的FID提升。然而,现有方法在动态视频生成和跨模态一致性维护上仍存在显著挑战。 -
2.3 统一多模态模型
统一多模态模型(UMM)的发展呈现两大方向:
- 原生统一架构:如Show-o和Janus-Pro
通过双流Transformer实现理解与生成的联合建模,在VQA和图像生成任务中分别达到78.3%和34.6%的准确率; - 模块化组装框架:如UniToken
采用可插拔式视觉编码器(SigLIP+VQ-GAN),通过三阶段训练策略(语义对齐→多任务联合→指令微调)实现参数高效扩展。
当前瓶颈在于: - 表征空间割裂:理解任务依赖的高层语义特征与生成任务需要的底层细节特征存在表征冲突;
- 训练数据稀缺:高质量交错数据(图像-文本-视频)的获取成本限制了模型泛化能力。
3 方法论
3.1 整体框架
如图1所示,本框架提出双路径统一视觉表征(Dual-Path Unified Visual Representation, DPVVR),包含以下核心组件:
- 多模态编码器:采用3D因果VAE编码器处理时序视频数据,提取时空联合特征Fvid∈RT×H×W×C;
- 特征融合模块:通过空间-时间双分支Transformer(Spatial-Branch: Fimg,Temporal-Branch: Fvid)实现跨模态特征交互;
- 流匹配机制:基于最优传输理论构建流头(Flow Head),在隐空间建立文本与视觉表征的微分同胚映射。
- 动态频域调制:引入可学习频率选择性核层(FSKL),通过傅里叶变换动态调整输入频谱F′=F⊙(αlowHlow+αhighHhigh),增强模型对退化图像的鲁棒性;
- 轻量级扩展:采用LoRA微调(秩r=64)实现参数高效扩展,在70B参数模型上实现<1%的额外计算开销。
- 语义层冻结:预训练阶段固定高层语义投影矩阵S(⋅),仅训练低层适配器;
- 动态重参数化:在推理阶段根据输入模态自动切换特征归一化策略(图像:LayerNorm;视频:TimeNorm),减少跨模态干扰。
为适配不同规模模型,提出参数解耦技术:
语义层冻结:预训练阶段固定高层语义投影矩阵S(⋅),仅训练低层适配器; 动态重参数化:在推理阶段根据输入模态自动切换特征归一化策略(图像:LayerNorm;视频:TimeNorm),减少跨模态干扰。
实验表明,该方法在1.5B参数模型上实现91.2%的零样本VQA准确率,且70B模型微调仅需32小时(A100 GPU)。