基于局部特征选择的语义相关性部分度量及并行非负稀疏大矩阵分解方法
在自然语言处理领域,语义相关性度量和矩阵分解是两个重要的研究方向。下面将分别介绍基于局部特征选择的语义相关性部分度量方法以及并行非负稀疏大矩阵分解方法。
基于局部特征选择的语义相关性部分度量
在语义相关性度量(MSR)的研究中,偶然关联给词典编纂者和算法都带来了问题。传统的基于阈值的全局过滤方法虽然简单常用,但会导致信息丢失。因此,我们提出了一种部分MSR的方法,旨在仅对那些从语料库中收集到足够信息的词对分配语义相关性值。
问题提出
在刻画语义场时,偶然关联会干扰语义相关性的判断。例如,在构建MSR时,简单的全局过滤方法(如仅对语料库中频率足够高或权重值足够大的词进行MSR计算)会因为全局频率阈值设置不当,导致信息丢失。而且,大型词网大多包含低频词,词网扩展也主要针对低频词,全局过滤方法并不适用。
方法介绍
- 基本思想 :两个词只有在共享足够多的高质量特征时,MSR才应赋予它们较高的值。当支持词对关联的数据有限时,MSR应避免赋值。
- 特征质量和数量 :关键问题是如何衡量特征质量以及需要共享多少特征。常用统计关联度量或信息理论度量来权衡特征对单个词的描述。例如,点互信息(PMI)常被应用,但它会高估一些特征,尤其是对于低频词,且没有通用的阈值来保证合适的特征选择。
- 部分MSR计算方案 :
- 设M为词和特征的重合矩阵,CE为全局不重要特征集,σ为矩阵行相似度函数,x、
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



