预测个体推理者:一种新方法
1. 推理任务概述
在推理任务中,有两个常见的任务类型,分别是三段论推理任务和沃森选择任务。在沃森选择任务里,有抽象版本、道义版本和日常概括版本。例如在抽象版本中,规则可能是“如果卡片的一面是 A,那么另一面是 3”;道义版本可能像“如果你要去电影院,你应该穿绿色的衣服”;日常概括版本如“每次我去曼彻斯特,我都开车去”。
不同版本的任务对参与者的表现有影响。如在日常概括的例子中,16 个受试者中有 10 个只做出了证伪选择。而在道义规则的例子里,以邮政规定“如果一封信是密封的,那么它上面有 50 里拉的邮票”为例,用实际信封代替卡片,几乎所有参与者都能选出证伪的信封,但他们在抽象任务中的表现较差,这表明规则的内容能促进任务表现。
2. 协同过滤技术
推荐系统是为用户提供有用物品建议的软件工具,可应用于在线购物、网站推荐、音乐推荐等多个领域。协同过滤技术基于向有相似品味的朋友询问产品推荐这一思路,由 Goldberg 首次提出。
协同过滤算法会在一组用户中寻找与你品味相似的人,并根据他们喜欢的物品向你推荐。比如,如果 Alice 喜欢物品 1 和 2,Bob 喜欢物品 1、2 和 3,那么 Alice 可能也会喜欢物品 3。
用户的偏好存储在一个矩阵中,每行代表一个用户,每列代表一个物品。由于用户可能只对部分物品进行了评分,数据可能非常稀疏。协同过滤技术主要有基于相似度(也称为基于相关性)和基于模型两种类型,本文主要关注前者。
基于相似度的技术首先使用相似度度量来构建用户之间的成对相似度,然后进行加权投票程序,并使用简单加权平均来预测评分。常用的相似度度量是皮尔逊相关性,计算公式如下:
[w_{i,j} = \frac{\sum_{u}(r_{i,u} - \overline{r}
{i})(r
{j,u} - \overline{r}
{j})}{\sqrt{\sum
{u}(r_{i,u} - \overline{r}
{i})^2}\sqrt{\sum
{u}(r_{j,u} - \overline{r}
{j})^2}}]
其中,求和是对用户 i 和 j 都评分的物品进行的,(\overline{r}
{i}) 和 (\overline{r}_{j}) 分别是用户 i 和 j 对共同评分物品的平均评分。
预测公式为:
[P_{a,x} = \overline{r}
{a} + \frac{\sum
{s}(r_{s,x} - \overline{r}
{s}) \cdot w
{a,s}}{\sum_{s}|w_{a,s}|}]
其中,(w_{a,s}) 是用户 a 和 s 之间的相似度,(\overline{r}
{a}) 和 (\overline{r}
{s}) 是用户 a 和 s 对除 x 之外的评分物品的平均评分。
3. 实验设置
本次实验测试了 112 名受试者,他们都回答了三段论推理任务和沃森选择任务。受试者通过亚马逊 Mechanical Turk 网页的在线调查招募,年龄在 24 至 58 岁之间,教育程度从高中到博士学位不等,且会获得金钱补偿。
受试者需要完成 24 项任务,包括 12 个版本的沃森选择任务和 12 个三段论。三段论中有 6 个有效三段论和 6 个无效三段论,分布在不同的图形任务中,且每个版本都有低、中、高三种不同难度的任务。难度根据 Khemlani 和 Johnson - Laird 的元分析中给出正确答案的受试者百分比来评估,超过 55% 给出正确答案的为低难度,40% - 50% 为中等难度,低于 20% 为高难度。前提内容的端项是常见职业,中间项是常见爱好或个人特征。
在沃森选择任务中,参与者要完成抽象、道义和日常概括三个版本各 4 个任务,每个版本的 4 个任务包含否定情况,如“如果 p,那么 q”“如果 p,那么非 q”“如果非 p,那么 q”“如果非 p,那么非 q”。不同版本的材料不同,抽象版本是字母和数字,道义版本是人们可以去的地方和可以穿的颜色,日常概括版本是食物和饮料。
4. 模型构建
本文使用基于相似度的协同过滤方法构建模型,基本思想是根据“相似”受试者的邻域来预测答案。
模型首先随机选择 10% 的受试者,并为每个受试者删除 25% 的答案,这些就是模型要尝试预测的任务。对于每个缺失的答案,模型会计算该受试者与其他每个受试者之间的成对相似度。如果相似度高于 0.35,该受试者的答案会根据相似度进行加权,并累加到相应的选项中。最后,选择得票最高的选项作为推荐的首选答案。
以下是协同过滤模型的算法流程:
repeat
to_delete.append(random element) // 挑选随机受试者进行删除
until for 10% of the subjects
for subject in to_delete do
repeat
delete random task // 挑选随机任务进行删除
until for 25% of the tasks
end for
for missing answer do
for other subject do
x ← similarity(subject, other subject) // 使用 simi,j 方程
if x > 0.35 then
value[answer[other subject]] += 1 * x // 执行加权聚合
end if
end for
missing answer ← key.max(value) // 选择最常选的答案
end for
为了衡量受试者之间的相似度,需要定义相似度函数。对于三段论任务,相似度计算为两个受试者相同答案的数量除以他们都回答的任务数量。设 N 是受试者 i 和 j 都回答的任务数量,(n_{sameAnswers}) 是他们给出相同答案的任务数量,则 i 和 j 之间的相似度 (sim_{i,j}) 计算公式为:
[sim_{i,j} = \frac{n_{sameAnswers}}{N}]
对于沃森选择任务实验,相似度度量略有不同。因为在每个任务中,受试者必须决定是否翻转四张卡片中的每一张,(n_{sameAnswers}) 表示 i 和 j 对相同卡片做出相同决定的数量,N 是两个受试者都做出决定的卡片总数。
例如,假设有三个受试者(Alice、Bob 和 Charlie)回答抽象版本的任务,卡片是 A、K、4、7。假设 Alice 只翻转 A 卡,Bob 翻转 K、4 和 7 卡,Charlie 翻转所有四张卡。用简单的相似度度量,比较答案后,三个受试者看起来同样“不相似”,但实际上 Alice 和 Bob 对每张卡片的决定都不同,而 Bob 和 Charlie 有四分之三的决定相同,所以简单度量不太合理。
5. 实验结果
模型在三个不同的数据集上进行测试,分别是三段论推理领域数据集、沃森选择任务数据集以及包含两个领域答案的组合数据集。
5.1 三段论推理
使用准确率作为评估指标,即正确预测的数量除以总预测数量。将模型与现有模型或理论预测进行比较,包括非法转换、言语模型、心理模型以及 mReasoner 等。这些模型并非专门为预测个体答案而设计,通常会为每个三段论任务预测多个答案。为了使模型具有可比性,如果模型预测多个答案,会随机选择一个预测与真实答案进行比较。模型需要从 9 种可能的选项中进行预测,随机猜测的正确率为 11%。实验结果显示了不同模型的准确率情况。
5.2 沃森选择任务
由于该任务是二元设置,即模型要预测每张卡片是否应该翻转,使用与三段论推理相同的准确率公式,但符号有所调整:
[accuracy = \frac{n_{correct}}{N} = \frac{TP + TN}{TP + FP + TN + FN}]
其中,TP 指正确预测应翻转的卡片,TN 指正确预测不应翻转的卡片,FP 指错误预测为应翻转的卡片,FN 指错误预测为不应翻转的卡片。
将模型与其他理论模型进行比较较为困难,因为这些模型通常不提供个体预测,而是答案分布预测,且很少区分任务的不同版本,也很少提供定量预测。这里使用了匹配理论,该理论预测只有规则中提到的卡片(即 p 和 q)会被翻转,同时也将逻辑正确答案(p¯q)加入比较。实验结果展示了不同模型的准确率。
5.3 组合领域
将两个推理领域的数据结合起来,根据是沃森选择任务还是三段论,使用相应的准确率度量。可以使用以下公式进行概括:
[accuracy = \frac{n_{correctCards} + n_{correctSyllog}}{N_{cards} + N_{syllog}}]
其中,(n_{correctCards}) 是正确预测的卡片数量,(n_{correctSyllog}) 是正确预测的三段论数量,(N_{cards}) 是要预测的卡片总数,(N_{syllog}) 是要预测的三段论总数。
由于没有已知的模型能同时处理这两个任务,所以无法进行模型比较,仅展示了模型的准确率。在标准设置下,为 10% 的受试者删除 25% 的任务,模型达到了 52% 的准确率,该性能约为在各个领域中达到的准确率的平均值。并且此时衡量两个受试者之间的相似度时考虑了两个任务,这表明推理任务之间具有一致性。
6. 结果讨论
在每个推理领域中,模型都优于其他模型或理论预测。对于三段论推理,虽然竞争对手因随机选择预测而受到影响,但这也支持了这些模型目前不适合预测个体答案的观点。
为了检查模型的鲁棒性,逐渐增加删除数据的量,结果表明模型在处理稀疏数据方面表现良好,即使缺失 65% 的数据,仍能保持准确率。这适用于模型的所有三个应用,说明该方法适用于不同的推理领域。
尽管将模型与其他认知模型的预测进行了比较,但由于这些模型并非专门处理个体答案,结果不太容易解释。因此,这些结果可以作为该领域的第一个基准,为未来的模型提供比较标准。
7. 总结与展望
目前,对推理任务中个体差异建模的研究非常少,这对计算机科学提出了挑战,因为人工智能代理需要处理不同推理方式的人。本文实现了一个使用协同过滤预测推理任务中个体表现的模型,该模型是首次尝试在个体层面处理人类推理。
模型在三段论和沃森选择任务这两个突出的推理领域中优于其他理论预测,并且在包含两个领域答案的数据集上也能有效工作。模型性能稳健,即使需要预测超过 50% 的数据,仍能保持准确率,还能预测受试者的错误答案,适用于现实生活场景。
研究结果对推理心理学有重要意义,表明人们在推理任务中的表现是可预测的,且推理具有一致性。这也为协同过滤等推荐系统技术开辟了新的研究路径,表明它们不仅适用于预测人们的偏好,还可用于解释人类推理。
未来的研究可以从多个方面扩展该方法。例如,测试该方法是否可应用于其他推理领域;进一步改进模型,如细化相似度度量;尝试使用基于模型的协同过滤模型以提高准确率。还需要解决“冷启动”问题,即如何处理没有任何数据的新推理者。此外,仅预测答案并不等同于理解推理,可将该方法与推理理论相结合,以提高模型的学习能力,还可以将其与元学习模型相联系,进行推理学习。
预测个体推理者:一种新方法
8. 模型优势分析
本模型在推理任务预测方面展现出了诸多显著优势,以下通过表格形式详细对比分析其与传统模型的差异:
| 对比项目 | 传统模型 | 本协同过滤模型 |
| — | — | — |
| 个体预测能力 | 并非专门针对个体答案进行预测,通常给出多个答案,难以精准匹配个体情况 | 专注于预测个体在推理任务中的表现,能根据相似个体的回答来预估目标个体的答案,更贴合实际情况 |
| 数据处理能力 | 对稀疏数据的处理能力较弱,数据缺失可能导致预测准确性大幅下降 | 能够很好地处理稀疏数据,在数据缺失达 65% 的情况下仍能保持较高的准确率,具有较强的鲁棒性 |
| 跨领域适用性 | 一般局限于单一推理领域,难以在多个不同领域通用 | 不仅适用于三段论推理和沃森选择任务,还能在包含两个领域答案的组合数据集中有效工作,具有更广泛的应用范围 |
从上述对比可以清晰地看出,本协同过滤模型在个体预测、数据处理和跨领域应用等方面具有明显优势,更适合应对复杂多变的实际情况。
9. 推理任务中的一致性体现
通过对组合领域数据的分析,发现人们在推理任务中的表现具有一致性。下面通过 mermaid 流程图展示这种一致性的体现过程:
graph LR
A[个体回答三段论任务] --> B[提取回答特征]
C[个体回答沃森选择任务] --> B
B --> D[计算个体之间相似度(考虑两项任务)]
D --> E[发现相似个体在不同任务中的表现规律]
E --> F[体现推理任务的一致性]
这一流程图表明,通过综合考虑个体在不同推理任务中的回答,能够发现其中的规律,进而证明推理任务之间存在一致性。这种一致性也是本模型能够有效运行的重要基础,因为模型正是基于个体之间的相似性来进行答案预测的。
10. 模型对推荐系统技术的拓展
本研究不仅在推理任务预测方面取得了成果,还为推荐系统技术带来了新的拓展。传统推荐系统主要用于预测人们的偏好,如在商品推荐、音乐推荐等方面。而本模型将协同过滤技术应用于推理任务,表明推荐系统技术可以进一步延伸到人类推理领域。
以下是推荐系统技术传统应用与本研究拓展应用的简单对比列表:
-
传统应用
:
- 在线购物:根据用户的购买历史和浏览记录,推荐相似的商品。
- 音乐推荐:依据用户的听歌习惯,推荐风格相似的音乐。
- 网站推荐:根据用户的访问偏好,推荐相关的网站。
-
拓展应用
:
- 推理任务预测:预测个体在三段论推理、沃森选择任务等推理任务中的答案。
- 认知能力评估:通过分析个体在推理任务中的表现,评估其认知能力和推理水平。
这种拓展为推荐系统技术开辟了新的应用方向,有望在教育、心理评估等领域发挥重要作用。
11. 未来研究方向的具体探讨
未来可以从多个具体方面对本方法进行拓展和改进,以下是详细的探讨:
11.1 拓展推理领域
目前研究仅局限于三段论推理和沃森选择任务这两个演绎推理领域。未来可以尝试将该方法应用于其他推理领域,如归纳推理、类比推理等。具体操作步骤如下:
1. 确定目标推理领域,如科学研究中的归纳推理场景。
2. 收集该领域的推理任务数据,例如科学家在实验数据分析过程中的推理过程和结果。
3. 对数据进行预处理,包括数据清洗、特征提取等操作,使其符合协同过滤模型的输入要求。
4. 调整模型参数,将已有的相似度计算方法和预测算法应用到新的数据集中,进行测试和验证。
11.2 模型优化
可以从多个角度对模型进行优化,其中相似度度量的细化是一个重要方面。可以结合更多的理论研究成果,例如考虑推理任务的难度、推理过程的复杂度等因素,对现有的相似度计算公式进行改进。具体步骤如下:
1. 深入研究推理任务的特点和影响因素,确定需要纳入相似度计算的新因素。
2. 对原有的相似度计算公式进行调整,加入新的变量和权重系数。
3. 在实验数据上对改进后的相似度度量进行验证,观察其对模型预测准确率的影响。
4. 根据验证结果,进一步调整和优化相似度度量,直到达到满意的效果。
11.3 引入基于模型的协同过滤
初步研究表明,基于模型的协同过滤模型具有提高准确率的潜力。可以尝试引入这种模型,具体步骤如下:
1. 学习和掌握基于模型的协同过滤的基本原理和算法,如矩阵分解模型等。
2. 将基于模型的协同过滤算法与现有的相似度基于协同过滤模型相结合,构建新的混合模型。
3. 在实验数据集上对新模型进行训练和测试,比较其与原模型的性能差异。
4. 根据测试结果,对混合模型进行调整和优化,提高其预测准确率和稳定性。
11.4 解决“冷启动”问题
“冷启动”是指对于没有任何数据的新推理者,模型难以进行有效预测的问题。未来需要找到解决该问题的方法,以下是一种可能的思路和步骤:
1. 设计一种初始评估机制,例如通过简单的问卷或测试,快速获取新推理者的一些基本信息和推理倾向。
2. 根据这些初始信息,在已有的数据集中寻找与之最相似的个体,将这些相似个体的信息作为新推理者的初始数据。
3. 随着新推理者参与更多的推理任务,不断更新其数据,逐步提高模型对其预测的准确性。
11.5 与推理理论和元学习模型结合
为了更好地理解推理过程,需要将本方法与推理理论相结合。同时,与元学习模型相联系可以进一步提高模型的学习能力。具体操作步骤如下:
1. 研究现有的推理理论,如心理模型理论、概率推理理论等,找出与本模型相关的部分。
2. 将推理理论中的关键概念和原理融入到模型的相似度计算和预测算法中,例如考虑推理的逻辑结构和认知过程。
3. 学习元学习模型的基本原理和方法,将其与本模型相结合,构建一个能够自动学习和优化的系统。
4. 在实验中验证结合后的模型的性能,观察其是否能够更好地解释推理过程和提高预测准确性。
12. 对实际应用的启示
本研究成果在实际应用中具有重要的启示意义,以下是一些可能的应用场景和具体操作建议:
12.1 教育领域
在教育中,可以利用该模型预测学生在推理任务中的表现,为个性化教学提供依据。具体操作如下:
1. 设计一系列适合学生的推理任务,如数学推理题、逻辑谜题等。
2. 让学生完成这些任务,收集他们的答案数据。
3. 使用本模型对学生的推理能力进行评估和预测,找出学生的优势和不足。
4. 根据预测结果,为学生制定个性化的学习计划,提供有针对性的辅导和训练。
12.2 心理评估领域
在心理评估中,模型可以用于评估个体的认知能力和推理水平。具体步骤如下:
1. 选择合适的推理任务作为评估工具,确保任务的有效性和可靠性。
2. 对被评估者进行测试,收集他们的推理任务答案。
3. 运用模型对被评估者的表现进行分析和预测,生成详细的评估报告。
4. 根据评估报告,为被评估者提供专业的建议和指导,如心理干预措施或职业发展建议。
12.3 人工智能交互领域
在人工智能代理与人类交互的场景中,模型可以帮助代理更好地理解人类的推理方式,提高交互的效果。具体做法如下:
1. 在人工智能系统中集成本模型,使其能够实时分析用户在推理任务中的表现。
2. 根据用户的推理特点和习惯,调整人工智能代理的交互策略,提供更符合用户需求的服务。
3. 不断收集用户的反馈数据,对模型进行更新和优化,提高人工智能代理的适应性和智能水平。
通过以上对实际应用场景的分析和操作建议,本研究成果有望在多个领域发挥重要作用,为解决实际问题提供有效的支持。
超级会员免费看

被折叠的 条评论
为什么被折叠?



