基于文本注释的概念不协调度测量研究
研究背景与目的
在网络信息检索中,人们往往会聚焦于那些可能包含大量有用信息的内容,就像在信息的海洋中“觅食”。基于Piroll和Card的心理学研究,我们将用户在线行为的信息处理视角进行拓展,提出一种新的用户 - 物品推荐标准。
我们采用“贝叶斯大脑”的观点来理解人们的信息处理过程。大脑可以看作是一个具有层级控制的系统,低级控制器编码自动且习惯化的行为模式,高级控制器则根据特定环境条件决定信任哪些低级控制器。这种认知架构的成功很大程度上依赖于快速检测环境变化的能力。当环境发生转变时,新环境中的观察结果对于适应旧环境的控制器来说会显得不协调,而关注这些不协调的观察结果是贝叶斯大脑的合理策略,因为它们可能预示着环境的变化。
我们结合“人类可能认为不协调的物品平均包含更多信息”这一观点和信息觅食假说,研究不协调度在人类对在线内容评估中的作用。具体来说,我们要对从文本注释中提取的物品的概念不协调度进行定量测量,并通过人类判断来验证这一测量方法。然后探索不协调度对用户对数字内容评分的影响,以及在用户可能寻找不协调物品的情境下的影响。
不协调度的测量
不协调度本质上是对上下文产生的预期的违背。例如,“我去商店买糖果”是正常的表述,而“我去商店买河马”则显得不协调;但“我去动物园看河马”就是完全正常的。所以,“河马”这个词在商店购买的情境下是不协调的。
我们的研究基于一个重要的心理学假设:不协调的直觉可以在语义词相似度空间中进行测量。描述既定上下文的词语往往会频繁共现,从而在词相似度空间中形成聚类。那些与这些聚类异常远离的词语可以被认为违背了聚类所产生的预期。