46、人类三段论推理中启发式组合的预测能力

人类三段论推理中启发式组合的预测能力

1. 引言

认知建模在心理和认知研究中掀起了热潮。如今,理论被形式化,在代表性数据上进行评估,并最终在数学基础上进行比较。在认知科学领域,建模能够从多个角度处理现象,从基于心理效应的简单启发式方法(如氛围效应)到不同复杂度的回归模型(如练习幂律或语义指针架构统一网络)。

近期的一项元分析研究了人类三段论推理建模的现状。评估十二种模型后发现,代表快速节俭原则的启发式方法表现不如更精细的基于模型的解释。这并不奇怪,因为启发式模型本质简单,与试图融入认知大框架的模型相比存在差距。

本文重新审视启发式方法在人类三段论推理建模中的作用。不将启发式方法视为成熟的认知模型,而是看作构成人类推理心理过程的合理构建块。通过借鉴人工智能研究中的组合方法评估启发式模型,该方法基于将表现较弱的模型组合成强大模型的理念,识别和利用优势,避免个体弱点。例如,布尔可满足性问题(SAT)的研究通过智能组合不同算法实例取得进展,分类研究中也能通过组合弱模型获得更好的元模型。将这些技术应用于人类推理,能在预测人类推理行为方面达到先进水平,同时深入了解底层模型的概念属性。

2. 三段论的启发式方法

三段论前提由关于两个术语(如A和B)的量化断言(所有、一些、没有、一些……不是)组成。三段论由两个通过共同术语连接的前提构成,根据前提中术语的顺序,三段论有四种形式。通过将量词缩写为A、I、E和O,并对形式进行编号,三段论可表示为AA1、AA2、……、OO4,共64个不同的三段论问题。例如,“所有B都是A;所有B都是C”用标识符AA4表示。在三段论推理任务中,参与者需给出九个可能结论之一,或选择“无有效结论”(NVC)。对于上述例子,逻辑结论“一些A是C”的回答率为12%,“所有A都是C”和NVC的回答率分别为49%和29%,这表明有必要识别显然不遵循经典逻辑的人类推理策略。

启发式这个术语在许多研究领域都很重要。在计算机科学和人工智能中,启发式常用于复杂场景(如规划),以获得快速节俭的近似值,而无需全面模型(如快速前向规划)。从这个意义上说,启发式是“经验法则、有根据的猜测、直觉判断或常识”。在认知建模和人类推理领域,启发式用于表示行为效应的简单模型,不旨在提供全面的心理功能理论解释。本文扩展了启发式的概念,包括通常不考虑与相关认知功能(如记忆效应、编码错误等)相互作用的模型。我们的启发式集合包括非自适应、静态方法,这些方法从核心原则而非假设的一般底层认知联系产生预测。这一定义包括基于逻辑的方法(如带或不带存在性引入的一阶逻辑FOL和FOL - Strict,以及弱完成语义WCS),以及认知科学中著名的模型(如氛围、转换和匹配假设,概率启发式模型中的最小和附着启发式,以及证明心理学模型PSYCOP)。

3. 组合分析

分析和结果基于在亚马逊机械土耳其人平台上进行的网络实验收集的数据。计算基于139名参与者对全部64个三段论提供结论的记录。所有值和可视化基于重复随机子采样500次迭代的平均值,其中100名参与者用于训练,39名用于测试。

3.1 组合构建

组合方法的核心是确定给定特定任务时子模型预测质量的机制。在三段论推理领域,这对应于为每个子模型和三段论分配个体分数的算法。我们将此分数定义为平均倒数排名(MRR),这是数据库和推荐系统中常用的指标,在比较模型预测的结论集与真实数据时考虑了相关性程度。公式如下:
[MRR_M(A_1, A_2, …, A_{64}) = \frac{1}{64} \sum_{s = 1}^{64} \frac{1}{|P_M(s)|} \sum_{p \in P_M(s)} \frac{1}{r(p, A_s)}]
其中,$A_s$表示推理者对三段论$s$按频率排名的聚合响应,$P_M(s)$表示模型$M$对三段论$s$的预测集,$r(p, A_s)$是计算响应$p$在$A_s$中排名的函数。

根据上述分数分配策略,得到的矩阵表明某些建模方法在三段论问题域的特定区域表现良好。例如,基于氛围效应的理论只能在有效三段论上表现良好,因为它无法生成NVC响应。相比之下,基于形式逻辑的模型(如FOL)在无效三段论上表现出色,但在解释有效三段论上的非逻辑人类行为时存在弱点。这凸显了组合方法的潜力,通过选择有前景的模型进行预测,可显著提高个体子模型的性能。

3.2 组合评估

为了定义评估和比较的共同基础,近期文献采用了不同方法。例如,将人类推理者的答案频率二分以获得可与模型预测集比较的代表性结论向量,但这种方法模糊了模型的实际价值,无法区分答案频率的定量差异,虽能比较模型,但难以直观解释值本身。本文选择基于个体响应的精确性进行预测场景评估,将模型$M$的精确性$P_M$定义为个体任务精确性的平均值:
[P_M(a_1, …, a_{64}) = \frac{1}{64} \sum_{s = 1}^{64} \frac{tp_M(a_s)}{tp_M(a_s) + fp_M(a_s)}]
其中,$a_s$表示个体推理者对三段论$s$的答案,$tp_M(a_s)$和$fp_M(a_s)$分别表示模型$M$生成的预测集中相对于数据点$a_s$的真阳性和假阳性数量。

这种基于精确性的评估会惩罚产生未排名预测集的模型,因为只有人类推理者的特定响应被视为正确。由于这些模型最初基于群体数据开发,这会影响所有用于分析的心理动机模型。未考虑个体推理者适应性的模型,在精确性方面难以达到最佳表现。不过,所有数据水平和复杂度的模型能在同一尺度上比较,这是精确性评估的重要优势。

模型 精确性
MFA 0.456
Portfolio - Max 0.433
Portfolio 0.421
WCS 0.372
FOL - Strict 0.355
FOL 0.332
Conversion 0.320
PHM - Min - Att 0.306
PSYCOP 0.290
Atmosphere 0.247
PHM - Min 0.240
Matching 0.182

将可用模型应用于测试数据集的结果如图所示。图中显示了子模型以及两种组合变体的精确性值。组合在被查询预测时,根据个体模型的预测和相应的MRR加权生成响应。普通组合直接基于线性组合生成结论,Portfolio - Max只考虑最佳子模型。除了模型性能,图中还包括遵循最频繁答案(MFA)策略的精确性。MFA基于待预测数据定义,代表了无详细数据集知识的模型性能上限。

正如预期,组合的表现优于个体子模型。普通组合比最佳个体模型WCS高出约5%,达到42%。Portfolio - Max能达到43%,接近MFA设定的46%上限。两种组合的表现都明显优于最佳个体模型WCS。

Portfolio - Max接近MFA上限这一事实表明,组合模型能够几乎最优地解释基于群体的聚合数据。然而,若不深入到个体推理者建模层面,超越MFA是不可能的。

mermaid代码如下:

graph LR
    A[组合构建] --> B[确定子模型预测质量机制]
    B --> C[定义MRR分数]
    C --> D[计算MRR值]
    E[组合评估] --> F[选择精确性评估方法]
    F --> G[定义精确性公式]
    G --> H[计算模型精确性]

人类三段论推理中启发式组合的预测能力

4. 综合讨论

我们的研究结果揭示了不同模型在解释三段论问题特定部分时存在显著差异。通过构建启发式组合,我们得以深入洞察人类在处理特定三段论问题时所倾向采用的策略。具体而言,组合的构成明确了在各个三段论任务中表现不同的模型集群,主要包括基于氛围效应的模型、基于逻辑的模型以及它们的组合。这一发现有力地表明,单一的计算原则难以全面解释人类的推理行为。相反,正如双过程理论所倡导的,探索模型的组合方式或许是更为可行的研究方向。这意味着,在认知建模领域,我们应当重新审视启发式方法的作用,更加关注其在底层概念上的特异性。

特别值得关注的是,受心理效应启发的模型在解释有效三段论时表现出色,而基于逻辑的模型则在处理无效三段论时占据优势。这一现象为进一步提升单一模型的性能提供了有价值的线索。例如,探索非单调三值逻辑等替代逻辑,或者将形式逻辑与心理学见解相结合,都有可能带来性能的提升。然而,尽管我们在这方面取得了一定的进展,但距离最频繁答案所设定的性能上限仍有差距。这暗示着,基于聚合群体数据构建的未来模型可能会逐渐趋近性能饱和。为了进一步提高预测性能,模型需要开始考虑个体在推理过程中的独特特征,例如通过解决需要填补缺失数据的完成任务来实现。

从实际应用的角度来看,启发式组合在达到当前先进性能水平的同时,也为寻找能够最优解释人类行为的模型集合提供了一个良好的起点。无论是基于个体数据还是群体数据,组合模型都能够有效地评估人类推理的方法构成,同时构建高性能的模型。未来的研究面临着一些具体挑战,其中包括确定能够最优解释人类行为的最小模型集合,以及基于基本推理方法迭代构建推理理论。此外,将该领域应用于预测任务还有一个额外的好处,即能够促进更多的竞争。通过提供明确的问题和直观的评估方法,计算机科学家和认知科学家可以共同参与竞争与合作,从而推动我们对人类思维的理解取得更大的进展。

以下是一个关于未来研究挑战的列表:
1. 寻找能够最优解释人类行为的最小模型集合。
2. 基于基本推理方法迭代构建推理理论。
3. 探索非单调三值逻辑等替代逻辑,提升单一模型性能。
4. 考虑个体推理特征,如解决完成任务以填补缺失数据。

为了更清晰地展示不同类型模型在不同三段论问题上的优势,我们整理了如下表格:
| 模型类型 | 适用三段论类型 | 优势表现 |
| — | — | — |
| 受心理效应启发的模型 | 有效三段论 | 能更好地解释人类在有效三段论中的推理行为 |
| 基于逻辑的模型 | 无效三段论 | 在处理无效三段论时表现更优 |

最后,为了展示从当前研究到未来研究方向的整体流程,我们使用mermaid绘制了如下流程图:

graph LR
    A[当前研究:构建启发式组合] --> B[发现模型差异与优势]
    B --> C[考虑模型组合与替代逻辑]
    C --> D[面临未来挑战]
    D --> E[寻找最小模型集合]
    D --> F[迭代构建推理理论]
    D --> G[探索替代逻辑提升性能]
    D --> H[考虑个体推理特征]
    E --> I[推动对人类思维的理解]
    F --> I
    G --> I
    H --> I

通过以上的分析和探讨,我们对人类三段论推理中的启发式组合有了更深入的理解,同时也为未来的研究指明了方向。随着研究的不断深入,我们有望进一步揭示人类推理的奥秘,构建更加精准的认知模型。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值