基于非线性拟合评估语义相似度及基于BERT的短假新闻检测
语义相似度评估
在语义相似度评估方面,面临着诸多挑战,如维基百科知识的不完整性、无效性和不一致性,以及传统特征方法中特征权重分配复杂等问题。为解决这些问题,研究人员提出了一系列创新方法。
同义词相似度计算
对于同义词的相似度计算,给出了一种新的思路。首先,对于同义词对,先赋予一个初始相似度。然后,根据公式(9)的直觉,它们共同拥有的类别越多,初始相似度的偏差就越小。当R为正数时,B是相似度的下限,即共同类别较少的同义词对更相似;当R为负数时,B是相似度的上限,共同类别较多的同义词对更相似。
为了给公式(9)中的常数B和R赋予合适的值,先定义了离散空间:
- 一维离散空间D = {a, a + d, a + 2d, a + 3d · · · a + (n - 1)d, a + nd, b}定义为D = [a, b, d]。
- n维离散空间定义为Dn = {(x1, x2 · · · xn)|xi ∈ D, i = 1, 2 · · · n}。
接着,考虑B在离散空间[0.5, 1, 0.05]和R在离散空间[-1, 1, 0.1]中的不同值,通过训练过程找到最佳的B和R,具体操作是在训练基准上尝试B和R在各自离散空间中的每一种情况,并在其他基准上进行测试,直到找到能在测试基准上获得最佳皮尔逊相关系数的B和R值。
同时,对公式(4) - (7)中的四种方法进行了改进:
- 对于非同义词的概念对,由于ℑX(S) = ℑRE(S) = 0,建议忽略同义词的权重,当选择公式(1)中的均值函数Scon时,只计算ℑ(A)、ℑ(C)、ℑ(G)的
超级会员免费看
订阅专栏 解锁全文
1038

被折叠的 条评论
为什么被折叠?



