OpenBayes 教程上新丨超分辨率框架Chain-of-Zoom引入VLM生成的多尺度感知文本提示，256倍放大并保持图像高保真度

最新推荐文章于 2026-01-02 23:51:00 发布

原创

最新推荐文章于 2026-01-02 23:51:00 发布 · 943 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#高分辨率 #人工智能 #图像处理 #VLM #在线教程 #机器学习 #深度学习

在图像增强领域，单幅图像超分辨率（Single-Image Super-Resolution，SISR）一直是热门研究方向。当前主流的 SISR 模型——尤其是基于扩散模型和生成对抗网络的先进方法——已能在 2x、4x 等固定倍数上生成极具视觉真实感的高分辨率图像，广泛应用于图像修复、卫星遥感、医疗影像等场景。

然而，这些模型往往只能在训练时指定的缩放倍数下工作，一旦尝试放大到远超训练尺度（如 16x、32x，甚至更高）时，生成质量便会急剧下降，出现细节模糊、结构失真甚至「幻觉内容」。究其原因，是因为模型缺乏对跨尺度信息的有效建模能力，也没有适应极高倍放大场景中视觉线索稀缺的特性。

针对相关挑战，KAIST AI 研究团队提出了创新的 Chain-of-Zoom（CoZ）框架，通过将超分辨率任务分解为一个自回归的中间尺度状态链，并结合多尺度感知提示，来实现极高倍率的放大。CoZ 在每一个缩放步骤中重复使用同一个基础超分辨率模型，将整体的条件概率问题分解为一系列可处理的子问题，从而在无需额外训练的情况下实现极高分辨率的输出。由于在大幅放大时图像中的视觉线索会迅速减少，研究人员为每一次缩放步骤引入由视觉语言模型（VLM）生成的多尺度感知文本提示来增强指导。

实验证明，将一个标准的 4 倍扩散式超分模型封装进 CoZ 框架后，可以实现超过 256 倍的放大，同时保持极高的图像保真度。小贝使用了一张建筑物的图片进行测试，可以看到通过该模型的放大，建筑物上的一砖一瓦都清晰地显现了出来。

「Chain-of-Zoom：超分辨率图像细

最低0.47元/天解锁文章