19、基于非线性拟合评估语义相似度及基于BERT的短假新闻检测

Linux

于 2025-09-23 15:32:47 发布

阅读量19

点赞数

CC 4.0 BY-SA版权

分类专栏：知识科学前沿洞察文章标签：语义相似度非线性拟合 BERT

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/linux/article/details/153620623

知识科学前沿洞察专栏收录该内容

46 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于非线性拟合评估语义相似度及基于BERT的短假新闻检测

语义相似度评估

在语义相似度评估方面，面临着诸多挑战，如维基百科知识的不完整性、无效性和不一致性，以及传统特征方法中特征权重分配复杂等问题。为解决这些问题，研究人员提出了一系列创新方法。

同义词相似度计算

对于同义词的相似度计算，给出了一种新的思路。首先，对于同义词对，先赋予一个初始相似度。然后，根据公式(9)的直觉，它们共同拥有的类别越多，初始相似度的偏差就越小。当R为正数时，B是相似度的下限，即共同类别较少的同义词对更相似；当R为负数时，B是相似度的上限，共同类别较多的同义词对更相似。

为了给公式(9)中的常数B和R赋予合适的值，先定义了离散空间：
- 一维离散空间D = {a, a + d, a + 2d, a + 3d · · · a + (n - 1)d, a + nd, b}定义为D = [a, b, d]。
- n维离散空间定义为Dn = {(x1, x2 · · · xn)|xi ∈ D, i = 1, 2 · · · n}。

接着，考虑B在离散空间[0.5, 1, 0.05]和R在离散空间[-1, 1, 0.1]中的不同值，通过训练过程找到最佳的B和R，具体操作是在训练基准上尝试B和R在各自离散空间中的每一种情况，并在其他基准上进行测试，直到找到能在测试基准上获得最佳皮尔逊相关系数的B和R值。

同时，对公式(4) - (7)中的四种方法进行了改进：
- 对于非同义词的概念对，由于ℑX(S) = ℑRE(S) = 0，建议忽略同义词的权重，当选择公式(1)中的均值函数Scon时，只计算ℑ(A)、ℑ(C)、ℑ(G)的

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。