41、基于局部特征选择的语义相关性部分度量及并行非负稀疏大矩阵分解方法

sprite

于 2025-07-30 14:14:04 发布

阅读量27

点赞数

CC 4.0 BY-SA版权

分类专栏：文本与语音的智能对话文章标签：语义相关性度量局部特征选择非负矩阵分解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sprite/article/details/151005196

文本与语音的智能对话专栏收录该内容

72 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于局部特征选择的语义相关性部分度量及并行非负稀疏大矩阵分解方法

在自然语言处理领域，语义相关性度量和矩阵分解是两个重要的研究方向。下面将分别介绍基于局部特征选择的语义相关性部分度量方法以及并行非负稀疏大矩阵分解方法。

基于局部特征选择的语义相关性部分度量

在语义相关性度量（MSR）的研究中，偶然关联给词典编纂者和算法都带来了问题。传统的基于阈值的全局过滤方法虽然简单常用，但会导致信息丢失。因此，我们提出了一种部分MSR的方法，旨在仅对那些从语料库中收集到足够信息的词对分配语义相关性值。

问题提出

在刻画语义场时，偶然关联会干扰语义相关性的判断。例如，在构建MSR时，简单的全局过滤方法（如仅对语料库中频率足够高或权重值足够大的词进行MSR计算）会因为全局频率阈值设置不当，导致信息丢失。而且，大型词网大多包含低频词，词网扩展也主要针对低频词，全局过滤方法并不适用。

方法介绍

基本思想 ：两个词只有在共享足够多的高质量特征时，MSR才应赋予它们较高的值。当支持词对关联的数据有限时，MSR应避免赋值。
特征质量和数量 ：关键问题是如何衡量特征质量以及需要共享多少特征。常用统计关联度量或信息理论度量来权衡特征对单个词的描述。例如，点互信息（PMI）常被应用，但它会高估一些特征，尤其是对于低频词，且没有通用的阈值来保证合适的特征选择。
部分MSR计算方案 ：
- 设M为词和特征的重合矩阵，CE为全局不重要特征集，σ为矩阵行相似度函数，x、

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。