19、基于非线性拟合评估语义相似度及基于BERT的短假新闻检测

基于非线性拟合评估语义相似度及基于BERT的短假新闻检测

语义相似度评估

在语义相似度评估方面,面临着诸多挑战,如维基百科知识的不完整性、无效性和不一致性,以及传统特征方法中特征权重分配复杂等问题。为解决这些问题,研究人员提出了一系列创新方法。

同义词相似度计算

对于同义词的相似度计算,给出了一种新的思路。首先,对于同义词对,先赋予一个初始相似度。然后,根据公式(9)的直觉,它们共同拥有的类别越多,初始相似度的偏差就越小。当R为正数时,B是相似度的下限,即共同类别较少的同义词对更相似;当R为负数时,B是相似度的上限,共同类别较多的同义词对更相似。

为了给公式(9)中的常数B和R赋予合适的值,先定义了离散空间:
- 一维离散空间D = {a, a + d, a + 2d, a + 3d · · · a + (n - 1)d, a + nd, b}定义为D = [a, b, d]。
- n维离散空间定义为Dn = {(x1, x2 · · · xn)|xi ∈ D, i = 1, 2 · · · n}。

接着,考虑B在离散空间[0.5, 1, 0.05]和R在离散空间[-1, 1, 0.1]中的不同值,通过训练过程找到最佳的B和R,具体操作是在训练基准上尝试B和R在各自离散空间中的每一种情况,并在其他基准上进行测试,直到找到能在测试基准上获得最佳皮尔逊相关系数的B和R值。

同时,对公式(4) - (7)中的四种方法进行了改进:
- 对于非同义词的概念对,由于ℑX(S) = ℑRE(S) = 0,建议忽略同义词的权重,当选择公式(1)中的均值函数Scon时,只计算ℑ(A)、ℑ(C)、ℑ(G)的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值