在图像增强领域,单幅图像超分辨率(Single-Image Super-Resolution,SISR)一直是热门研究方向。当前主流的 SISR 模型——尤其是基于扩散模型和生成对抗网络的先进方法——已能在 2x、4x 等固定倍数上生成极具视觉真实感的高分辨率图像,广泛应用于图像修复、卫星遥感、医疗影像等场景。
然而,这些模型往往只能在训练时指定的缩放倍数下工作,一旦尝试放大到远超训练尺度(如 16x、32x,甚至更高)时,生成质量便会急剧下降,出现细节模糊、结构失真甚至「幻觉内容」。究其原因,是因为模型缺乏对跨尺度信息的有效建模能力,也没有适应极高倍放大场景中视觉线索稀缺的特性。
针对相关挑战,KAIST AI 研究团队提出了创新的 Chain-of-Zoom(CoZ)框架,通过将超分辨率任务分解为一个自回归的中间尺度状态链,并结合多尺度感知提示,来实现极高倍率的放大。CoZ 在每一个缩放步骤中重复使用同一个基础超分辨率模型,将整体的条件概率问题分解为一系列可处理的子问题,从而在无需额外训练的情况下实现极高分辨率的输出。由于在大幅放大时图像中的视觉线索会迅速减少,研究人员为每一次缩放步骤引入由视觉语言模型(VLM)生成的多尺度感知文本提示来增强指导。
实验证明,将一个标准的 4 倍扩散式超分模型封装进 CoZ 框架后,可以实现超过 256 倍的放大,同时保持极高的图像保真度。小贝使用了一张建筑物的图片进行测试,可以看到通过该模型的放大,建筑物上的一砖一瓦都清晰地显现了出来。


「Chain-of-Zoom:超分辨率图像细

最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



