探秘视觉幻象：Diffusion 模型打造的多视角光学错觉-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00073/article/details/139036123

探秘视觉幻象：Diffusion 模型打造的多视角光学错觉

visual_anagrams Code for the paper "Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models" 项目地址: https://gitcode.com/gh_mirrors/vi/visual_anagrams

在图像处理和计算机视觉领域，我们常常被创新的力量所震撼。今天，我们要向您介绍一个名为 "Visual Anagrams" 的开源项目，它利用先进的扩散模型，创造出令人惊奇的视觉幻象和多视图光学错觉。通过这个项目，您可以亲手制作那些在变换角度或颜色后呈现出不同形态的神奇图片。

项目介绍

该项目由 Daniel Geng、Aaron Park 和 Andrew Owens 共同研发，其代码库提供了生成视觉幻象和其他多视图光学错觉的功能。这些图像经过旋转、色彩反转或者拼图重组等操作，会呈现截然不同的外观或识别效果。在其官网和论文中，可以找到更详细的技术说明和实现原理。

技术分析

Visual Anagrams 基于 DeepFloyd IF——一种像素级的扩散模型，而非稳定扩散模型，因为后者可能会在创建幻象时引入瑕疵。首先，用户需要接受 Hugging Face 的使用条款，并通过 Python 脚本进行本地登录，以便使用 DeepFloyd IF 模型。然后，通过提供一系列提示词，如 "一座雪山村庄" 和 "一匹马"，以及可选的风格描述，比如 "油画中的"，就可以生成多视图幻象。