理解视觉错觉的方法
1. 视觉错觉的类型
视觉错觉是指感官输入导致对物理源产生扭曲感知的现象。根据潜在的潜在机制,视觉错觉可分为以下三种类型:
-
生理/病理错觉
:由过度或异常刺激引起。例如,观看明亮光源后出现的残像就是一种生理错觉。残像也可能由病理原因引起,如偏头痛或头部创伤导致的幻觉性视觉残留,这是由于神经元活动的异常改变,即使原始刺激消失,视觉感知仍可能持续或再次出现。
-
感知错觉
:指相同的物理属性在不同的视觉环境或背景下被感知为不同的现象。例如,在垂直 - 水平错觉中,人们往往会高估垂直线的长度,而实际上它与相同长度的水平线是一样的。在同时对比错觉中,一个物体在较暗的背景上会被感知为更亮。这些感知错觉可能源于大脑根据当前环境和/或过去的经验对刺激的不同反应。
-
模糊错觉
:其特点是由于刺激的模糊性导致视觉感知发生变化。例如,内克尔立方体和双眼竞争,相同的物理刺激可能会引发不同感知之间的自发切换。这些模糊错觉可能是大脑在不确定情况下进行推理和决策的结果。
2. 传统方法与生理/病理视觉错觉
传统的理解视觉感知的方法是,初级和高级视觉皮层中的神经元从视网膜输入中检测和编码其感受野内的特定信息特征。本质上,检测到的特征层次结构会产生与现实世界中刺激源的物理属性相对应的感知。然而,基于这个框架,错觉或错误感知本质上是特征检测器的反应与视觉刺激之间的差异。这可能是由于这些特征检测神经元的功能受到神经生物学限制,或者特征检测过程的不完善操作。例如,特征检测器(以及光感受器)的神经元适应和它们之间的侧向竞争可能导致残像和感知竞争等错觉现象。当神经元受损或受到人为刺激时,也可能观察到其他感知扭曲和病理错觉。
但这种传统的特征检测框架似乎无法清晰解释某些感知和模糊错觉的发生原因。例如,在垂直 - 水平错觉中,用传统方法解释需要假设垂直和水平特征检测器在响应性或检测器分布上存在固有差异,从而导致有偏差的感知,但目前没有已知证据支持这一观点。
3. 逆问题与视觉错觉的替代方法
由于三维空间中的源在二维投影上的转换,刺激的真实世界属性,如速度、位置和轨迹,无法通过视网膜上的任何给定投影唯一确定,这就是逆问题。不同的物体或物理参数可能会产生相似的视网膜图像,也就是说,从二维视网膜图像中检测到的特征可能来自不同的三维源。
与视觉仅涉及特征检测,视觉错觉源于特征检测过程中的异常活动的观点相反,大量研究指出,人类视觉系统以某种方式利用过去的经验,为一个无法直接了解的世界生成有用的感知。根据这种观点,视觉错觉不一定是视觉处理缺陷或人为因素的结果,而是对客观现实的不可避免且最可能的估计。
许多理论家试图解释当视网膜图像无法确定物理源的物理属性时,视觉系统如何产生成功的行为。基于亥姆霍兹的“无意识推理”观点,这些方法表明视觉感知不仅仅是检测环境的物理属性,还受到刺激的经验意义的积极影响。为此,提出了两种不同的框架来解释视觉感知和错觉:经验排序理论和贝叶斯决策理论。
4. 经验排序理论与感知错觉
经验排序理论完全摒弃了我们所看到的是物理世界属性的准确反映这一观念,承认视觉的逆问题本质上是无法解决的。相反,该理论假设视网膜刺激的任何特定方面的感知质量是该参数在给定视觉系统累积的过去经验中相对于同一刺激参数的所有其他实例的相对出现频率的函数。感知体验是由视觉系统通过其感觉器官与世界的试错交互历史定义的,而不仅仅是源刺激的物理信号。
根据经验排序方法,错觉不应被视为不完善视觉系统的结果,而是其核心策略的标志。验证这一假设通常涉及基于自然图像数据库收集统计数据,这些数据可作为我们对视觉世界累积过去经验的代理。如果我们的视觉系统确实进化为以经验方式生成感知,那么给定刺激的视觉感知,包括错觉,应该可以根据这些数据进行预测。
例如,Howe和Purves使用经验排序理论解释了长度感知随刺激方向变化的现象。他们使用大范围扫描仪获取自然图像数据库,分析图像中间隔长度与物理源长度之间的概率关系,结果表明自然场景的统计数据可以预测线长随方向变化的感知。经验方法还被用于解释各种著名的感知错觉,如康斯威特错觉、丘布错觉、缪勒 - 莱尔错觉和“闪光滞后”效应等,以及各种运动错觉和光强度、角度和线方向的感知。
然而,经验排序理论虽然在解释感知错觉和统计规律如何塑造我们的感知方面非常强大,但对于感知如何受到注意力、情感和期望的影响却提及不多。特别是,它不太能解释模糊错觉中的感知切换现象,因为多年视觉经验积累的统计数据不太可能在感知切换的短时间内发生变化以触发这种切换。
以下是视觉错觉类型的总结表格:
| 错觉类型 | 产生原因 | 示例 |
| ---- | ---- | ---- |
| 生理/病理错觉 | 过度或异常刺激,神经元活动异常改变 | 残像、幻觉性视觉残留 |
| 感知错觉 | 不同视觉环境或背景下大脑对刺激的不同反应 | 垂直 - 水平错觉、同时对比错觉 |
| 模糊错觉 | 刺激的模糊性导致大脑在不确定情况下推理和决策 | 内克尔立方体、双眼竞争 |
下面是视觉感知传统方法的mermaid流程图:
graph LR
A[视网膜输入] --> B[初级和高级视觉皮层神经元检测特征]
B --> C[特征层次结构产生感知]
C --> D[对应现实世界刺激源物理属性]
E[特征检测异常] --> F[产生错觉或错误感知]
理解视觉错觉的方法
5. 贝叶斯决策理论与认知错觉
与经验排序方法类似,贝叶斯决策理论在解释感知时也不认为简单的特征检测就能解决逆问题。不过,它假定可以基于感官输入对外部现实进行统计推断。贝叶斯决策理论基于贝叶斯定理,这是一个在不确定情况下进行推理和决策的框架。
在视觉感知的情境中,感知问题可以这样表述:给定视觉系统检测到的感官证据(E),能对这些证据的来源,即世界的状态(H)做出什么推断呢?例如,当在视网膜图像中检测到一条特定长度的垂直线(E)时,它可能是离眼睛很近的短垂直线(H1),也可能是稍长且更远的斜线(H2),或者是更长且更远的垂直线(H3)。贝叶斯决策理论提供了一种评估这些假设概率的方法,从而对产生感官证据的现实世界事物做出最佳猜测。
贝叶斯定理的公式为:(P(H|E)=\frac{P(E|H)P(H)}{P(E)}),其中后验概率(P(H|E))与先验概率(P(H))乘以似然概率(P(E|H))成正比。由于我们无法直接得知(H)实际发生的频率,先验概率本质上是基于过去经验的一种信念。贝叶斯规则允许我们结合基于先验信念的信息,以支持最可能的假设,即具有最高(P(Hn|E))的假设。在实际情况中,视网膜图像可能与无数不同长度、方向和距离的源刺激兼容,因此可以分别沿每个维度评估连续概率分布,并将它们组合起来以确定后验概率最高的假设。如果这个最佳猜测与现实世界的物体接近,那么与感官证据相比,误差应该最小。
这种将视觉视为贝叶斯推断的观点已成功解释了多种视觉错觉。在这个框架下,错觉是最优(尽管不完美)系统与感官输入相关的固有不确定性的结果。例如,Weiss等人开发了一个最优贝叶斯估计器来解释移动菱形错觉。在这个错觉中,水平移动的低对比度细菱形被感知为对角移动,而低对比度粗菱形和高对比度细菱形则被视为水平移动。这些不同的运动感知反映在贝叶斯估计器为每个菱形建模的后验概率上,表现为速度的概率分布。先验概率基于图像速度通常较低的假设进行估计,似然项由菱形每个点的局部速度概率分布组成,低对比度意味着感官证据的不确定性更大,对应于不太精确的分布。将先验概率和似然项相乘得到后验概率分布,其峰值预测了感知的运动方向。
另一个经典的视觉错觉现象——双眼竞争,也可以用贝叶斯的预测编码理论来解释。在双眼竞争中,每只眼睛接收到不同的图像,观察者在某一时刻看到的要么是其中一个图像,要么是一个短暂的合成图像。传统上,这种现象用非主导图像的抑制和对主导图像的逐渐适应来解释,但不太清楚为什么我们不直接感知到一个稳定的合成图像。而贝叶斯的解释围绕着大脑在所有情况下(包括双眼竞争)的目标是最小化预测误差这一假设。大脑构建的主导假设需要解释大部分感官信号,同时在生态上是合理的。
以一只眼睛看到房子图像,另一只眼睛看到脸图像为例,房子假设((Hh))和脸假设((Hf))的先验概率大致相同,且都高于两者的组合假设((Hh + f)),尽管组合假设能解释更多的感官信号,即具有更高的似然概率,但由于其先验概率低,后验概率(P(Hh + f|E))仍然较低。这三个竞争假设的似然概率和先验概率之间的不平衡意味着没有一个明确的赢家能在生态上合理且解释所有或大部分感官证据。因此,虽然在任何给定时间可能有一个假设占主导地位,但由于似然概率或先验概率低,预测误差仍然存在,相应的感知也不稳定。
另一种解释是,所有三个假设((p(Hh))、(p(Hf))和(p(Hh + f)))与每只眼睛的视网膜图像输入相比都存在较大误差。随着视觉系统不断调整假设以最小化预测误差,但无法为两只眼睛的感官输入达到稳定的误差最小值,主导感知会周期性地切换。
即使在正常观看条件下,两只眼睛接收到相同的刺激时,感知切换也可能发生,例如在奈克立方体、年轻 - 老妇人、兔子 - 鸭子错觉等模糊图形中。传统上,这种现象也用适应来解释,在预测编码的术语中,适应可以被视为先验概率项的衰减,因为“在不断变化的世界中,静态假设很快会失去影响力”。这种主导感知先验概率的衰减被认为会导致切换到另一个假设。
贝叶斯大脑的预测编码实现的关键是感知层次结构的概念,它以动态方式维护、修改和切换假设以适应传入的感官数据。因此,这种方法的优势在于为每个层次的横向竞争提供了一个统一的框架,并为跨层次交互提供了具体的计算解释,以假设(自上而下)和误差(自下而上)传播的形式。这使得它更容易适应高级因素对低级感知的影响,有助于解释复杂的现象,如精神病理错觉。
虽然贝叶斯决策理论在解释广泛的视觉现象和大脑功能方面显示出巨大的潜力,但其灵活性也引发了一些担忧。因此,用神经科学证据来约束贝叶斯决策理论对视觉现象的解释非常重要。目前,对贝叶斯框架神经实现的研究正在进行中,并且已经提出了合理的神经生理学解释。进一步的研究支持了视觉错觉是最优(尽管不完美)系统在不确定情况下进行推理的正常结果这一观点,这与将错觉视为处理错误的观点形成鲜明对比。
以下是贝叶斯决策理论解释视觉错觉的步骤列表:
1. 确定感官证据(E)和可能的假设(H)。
2. 估计先验概率(P(H)),基于过去经验。
3. 计算似然概率(P(E|H)),反映感官证据与假设的匹配程度。
4. 根据贝叶斯定理(P(H|E)=\frac{P(E|H)P(H)}{P(E)})计算后验概率(P(H|E))。
5. 选择后验概率最高的假设作为最佳猜测。
6. 比较最佳猜测与感官证据,评估预测误差。
下面是贝叶斯决策理论解释双眼竞争的mermaid流程图:
graph LR
A[双眼接收不同图像] --> B[大脑构建假设]
B --> C[评估假设的先验概率和似然概率]
C --> D[计算后验概率]
D --> E[选择主导假设]
E --> F[感知主导图像]
G[预测误差存在] --> H[切换主导假设]
H --> F
综上所述,理解视觉错觉可以从多种角度出发,不同的理论框架在解释不同类型的视觉错觉时各有优劣。生理/病理错觉可以用传统的特征检测理论在一定程度上解释,但对于感知错觉和模糊错觉,经验排序理论和贝叶斯决策理论提供了更深入的见解。未来的研究可以进一步整合这些理论,结合神经科学证据,以更全面地理解视觉错觉的本质和机制。
超级会员免费看
1024

被折叠的 条评论
为什么被折叠?



