语义组合分布模型与谓词空间关系相似性探索
在自然语言处理和语义分析领域,如何准确地表示和理解词语、句子的语义一直是研究的重点。本文将介绍两种不同的方法,一种是基于组合分布语义的具体构建方法,另一种是基于谓词的语义索引(PSI)方法,探讨它们在语义建模和推理中的应用。
组合分布语义模型
在处理大规模真实数据时,为了简化模型并能够进行评估,我们采用了普通向量空间的方法。以英国国家语料库(BNC)为例,该语料库包含约600万个句子。
普通向量空间的构建
- 向量空间设定 :将N设为以单词为基的普通向量空间,不进行注释。权重因子$C_{verb}^{ij}$通过统计共现次数来确定,而不是基于句法角色的参数。
- 权重计算步骤 :
- 浏览语料库,找出目标动词的所有出现情况。假设该动词在k个句子中作为及物动词出现。
- 对于每个句子,确定动词的主语和宾语。
- 使用通常的分布方法为每个主语和宾语构建向量。
- 将它们在所有坐标排列上的权重相乘,然后对k个句子中的每个乘法结果求和。从线性代数的角度来看,这就是主语和宾语向量的Kronecker积之和:$\overrightarrow{verb}=\sum_{k}(\overrightarrow{sub}\otimes\overrightarrow{obj})_{k}$。
- 给定一个以${\overrightarrow{n_{i}}} {i}$为基的向量空间A,两个向量$\overr
超级会员免费看
订阅专栏 解锁全文
27

被折叠的 条评论
为什么被折叠?



