你的眼睛会撒谎，AI的“眼睛”也会！揭秘人类与机器的视错觉差异！

原创于 2025-09-12 18:44:09 发布 · 1k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉

AMiner 专栏收录该内容

736 篇文章

订阅专栏

当我告诉你，下图左边的“彩色”小球颜色和右边的小球颜色是一样的，你会不会觉得我在睁眼说瞎话…

然而，它们真的是一样的……

如果你还是无法让自己信服的话，可以把这张图片放到Word里，用“字体颜色”选项卡取两边图中小球对应位置的颜色，会发现色彩的RGB值（一种常用的颜色标准）一模一样！

这就是著名的蒙克-怀特错觉（Munker-White’s illusion）。

心理学家蒙克和怀特共同发现了这种神奇的视错觉现象：当物体被不同颜色的条纹或背景包围时，其颜色的感知会发生变化。

哈佛大学的论文**《White’s Effect: Removing the Junctions but Preserving the Strength of the Illusion》（《怀特效应：去除连接点却保留错觉强度》）**对该效应进行了详细介绍。

来源：全球科技情报服务平台AMiner https://www.aminer.cn/pub/53e9bbfab7602d97048562f2/?f=fwh_am_v1

人类视觉系统的独特之处在于，它不只是被动接收感官数据，更会主动结合上下文进行推断，把模糊的信息转化为“合理”的感知。

而随着AI视觉系统越来越多地接手人类任务，一个有趣的问题浮现出来：AI也会经历视错觉吗？它们的“错觉”和人类一样吗？

《Illusions in Humans and AI: How Visual Perception Aligns and Diverges》（《人类和人工智能的错觉：视觉感知如何对齐和发散》）这篇论文通过对比人类感知与AI感知在视错觉上的表现，给出了耐人寻味的答案：人类的感知依赖情境假设，而AI不仅会出现类似人类的错觉效果，还存在一些特有的幻觉，这些特征在人类身上完全找不到对应。（点击阅读原文获取详细资料）

来源：全球科技情报服务平台AMiner https://www.aminer.cn/pub/68a3d99a163c01c850b11945/?f=fwh_am_v1

解开这些差异的密码，或许能让我们离更懂人类的AI更近一步。

人类的眼睛：会“脑补”的超级处理器

人类的视错觉，本质上是大脑解读世界的“副作用”。

我们的视觉系统从视网膜接收到光信号开始，就一直在进行主动加工——从增强明暗边界的对比度，到线条、形状的加工，再到整合深度、运动等信息，每一步都是大脑根据经验对眼睛接收到数据的主动预测、解释与重构。

这种重构在大多数情况下会显著提高人类处理信息的效率，但在特定条件触发下就会形成错觉。

具体来说，依照视觉系统处理信息的流程，人类的视错觉可以大致分为五种类型，包含了颜色和亮度错觉、几何视错觉、深度与空间错觉、运动错觉以及其他领域****的错觉。

其中，上文提到的蒙克-怀特错觉就属于第一种。类似的例子还有下面这张图，相同灰度的半环由于背景亮度的不同在视觉上呈现更亮/更暗的差异。

颜色和亮度错觉示例图片来自论文《Illusions in Humans and AI: How Visual Perception Aligns and Diverges》

另一个比较常见的是几何视错觉。如下图所示，两个相同的中央圆由于周围圆的衬托看起来有大小差异、平行正方形的轮廓由于相交的对角线而扭曲、水平灰线由于黑白瓷砖的交替和偏移排列成看起来变成倾斜的……这些错觉都强调了不同背景结构塑造对几何形状的感知。

几何视错觉示例图片来自论文《Illusions in Humans and AI: How Visual Perception Aligns and Diverges》

事实上，绘画和几何中的透视、一些看起来在动的图案也属于视错觉的范畴，它们分别属于深度与空间错觉以及运动幻象。

深度与空间错觉示例（右侧图案仔细看可以看到一个三维立方体）图片来自论文《Illusions in Humans and AI: How Visual Perception Aligns and Diverges》

运动错觉示例图片来自论文《Illusions in Humans and AI: How Visual Perception Aligns and Diverges》

而其他类型的错觉往往来自多个视觉过程之间的相互作用。在下图中，标记为A和B的两个正方形实际上具有相同的亮度（左）、彭罗斯阶梯中心形成一个在几何上不可能出现的三角（中）、两个实际上相同的桌面看起来在形状和大小上不同（右）

其他类型的视错觉示例图片来自论文《Illusions in Humans and AI: How Visual Perception Aligns and Diverges》

这些视错觉现象，你见过几个呢？

从大脑到智脑：AI看世界的方式有何不同

那么，AI会出现类似人类的视错觉现象吗？答案可能有些出乎意料。

人类的视觉系统经过漫长的进化，十分精密。而AI的视觉系统实际上是工程师用代码和数据搭建的人工产物，两者的底层逻辑截然不同。

人类视觉系统和AI对比图片来自论文《Illusions in Humans and AI: How Visual Perception Aligns and Diverges》

人类的视觉依赖上下文推理、先验知识以及分层处理的结构，能够对复杂场景和歧义进行高效的解释。

相比之下，大多数神经网络在没有丰富先验知识和自适应机制的情况下处理原始像素，更多以一种统计模式学习，这种差异限制了它们的解释能力。

比如卷积神经网络（CNN）在像素级别上归纳偏差进行泛化和识别；Vision Transformer（ViT）通过将图像划分为固定大小的网格进行标记因此在平衡局部和全局上得到改善；视觉语言模型（VLM）如GPT-4V通过将自然语言与图像一起处理的多模态标记方法，在保持视觉元素与语义上下文一致性上表现更好。

尽管AI的“视觉”在架构上不断调整优化，但人工智能感知世界的方式与人类从根本上而言是不同的。

人类可以通过上下文解决歧义，容忍噪音或者遮挡，也能根据线索做出高级推断，但是机器却只能承受很小的数据扰动，也容易被不相关数据带偏。

AI的“错觉”：从类人错觉到机器特有的感知漏洞

出乎意料的是，尽管有着以上的不同，一些经过专门训练的AI可以有效地模仿人类的这些视觉感知偏差！

在宾夕法尼亚大学大牛学者Konrad Kording的**《Shared Visual Illusions Between Humans and Artificial Neural Networks》（《人类与人工神经网络之间共享的视错觉》）这篇文章中，研究者运用信息论度量的方法分析了神经网络的内部表征，指出了神经网络在处理视觉信息时表现出的几何视错觉。**