语义空间中的相似性度量与人类认知建模
1. 向量空间模型与语义空间
对人类语言进行更好的数学表示有助于提升互联网信息内容的利用效率,但如何最优地表示人类语言仍是一个理论挑战。本文聚焦于其中的度量性挑战,探讨向量空间模型在表示人类心理词汇方面的应用及存在的问题。
1.1 向量空间模型的起源与发展
向量空间模型(VSBM)最初是为信息检索而提出的。Salton等人在寻找合适的数学空间来表示文档时,提出用高维向量空间中的向量来表示文档。在这个框架下,查询被视为一个小的(伪)文档并转换为向量形式,然后根据文档与查询的距离对语料库中的文档进行排序,距离越近的文档被认为越相关。这一方法为搜索引擎的诞生奠定了基础。
然而,该系统存在一个主要缺点,即当查询中的某个词被同义词替换时,可能无法返回高度相关的文档。为解决这个问题,人们引入了语义空间的概念,通过观察大文本语料库中的共现情况来构建语义空间,将概念隐式地表示在其中。
1.2 语义空间的构建与优化
语义空间是向量空间的一种实例,它可以基于其他单词、概念、文档或主题创建基。例如,在Hyperspace Analogue to Language(HAL)这样的词空间中,基由词汇表中的每个单词组成。对于给定的单词W,其向量通过计算在W的每个出现位置周围的给定上下文窗口中单词W(i)的出现次数,并将该数字写入表示W的向量的第i个位置来计算。这个数字可以通过距离或互信息度量(如点互信息)进行调整,以加权该位置单词的重要性,还可以考虑词序。
为了获得更基本的语义值,人们使用了诸如奇异值分解(SVD)、非负矩阵分解(NMF)或随机投影等数学工具对初始词空间进行降维。降维
超级会员免费看
订阅专栏 解锁全文
1171

被折叠的 条评论
为什么被折叠?



