论文阅读笔记——Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

最新推荐文章于 2025-07-23 23:38:46 发布

寻丶幽风

最新推荐文章于 2025-07-23 23:38:46 发布

阅读量238

点赞数 4

CC 4.0 BY-SA版权

分类专栏：论文阅读笔记文章标签：论文阅读笔记多模态统一理解生成 Janus Pro LLM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Multiple_x/article/details/149098264

论文阅读笔记专栏收录该内容

48 篇文章

订阅专栏

Harmon 论文
现存问题：

任务异构性矛盾：视觉理解需要高层语义特征，而生成依赖细粒度图像特征，传统方法（VQ/VAE编码器）难以兼顾；
框架割裂现状：现有系统多采用分离架构（如Janus系列），导致跨任务协同效应缺失；
语义-生成失衡：生成优先的编码器（如VQGAN）会损害理解性能。

MAR 作为一种基于图像掩码建模的生成范式，沿袭了表征学习 MAE 的 Encoder-Decoder 框架，Harmon 的作者们发现 MAR Encoder 在图像生成训练中，同时学会对视觉语义的建模。如图一所示，MAR 的 Linear Probing 结果远超 VQGAN、VAE，同时对视觉语义概念有更精确的响应。
统一架构：基于掩码自回归模型（MAR）构建共享编码空间
- 编码器：MIM预训练的MAR编码器（同时捕获语义与细节），线性探测准确率接近专用语义编码器SigLIP（68.7% vs 69.2%）
- 解码器：MAR自回归生成模块
- 语言模型：Qwen2.5指令微调LLM
三阶段训练策略：
- 阶段I：视觉-语言对齐（2200万图文数据），冻结 LLM
- 阶段II：全模态协同训练（5000万生成+2500万理解数据），引入CFG增强生成可控性
- 阶段III：高质量微调（美学筛选+分辨率提升至512px）

实验结果

Harmon 在多模态理解基准上，取得接近 Janus-Pro 的效果
在这里插入图片描述
在文生图基准上，Harmon 优势显著。在图像生成美学基准如 MJHQ-30K 上，Harmon 大幅领先同类的统一模型，并接近或超过文生图专家模型如 SDXL。

同时，Harmon 能在文生图中更好地利用多模态大模型的世界知识，在 WISE benchmark 上远超 Janus 等统一模型。
在这里插入图片描述

博客等级

码龄4年

70
原创

1669
点赞

1236
收藏

646
粉丝

关注

私信

热门文章

分类专栏

上一篇：: 论文阅读笔记——VGGT: Visual Geometry Grounded Transformer

下一篇：: 论文阅读笔记——Autoregressive Image Generation without Vector Quantization

最新评论

论文阅读笔记——Autoregressive Image Generation without Vector Quantization
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读笔记——Harmonizing Visual Representations for Unified Multimodal Understanding and Generation
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读笔记——VGGT: Visual Geometry Grounded Transformer
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读笔记——NoPoSplat
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读笔记——ComfyMind: Toward General-Purpose Generation via Tree-Based Planning and Reactive Feedback
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。