自然语义网络相似度与流式时间序列异常检测
自然语义网络相似度
在信息检索领域,向量空间模型是衡量文档相似度的常用方法。该模型将文档视为词袋,不考虑词的顺序,从词袋中提取权重向量。向量的长度等于文档集合词汇表(唯一词)的大小,每个权重代表特定词汇在文档中的重要性(若词不存在则为 0)。计算文档向量相似度的常用指标是余弦相似度,公式如下:
[cosim(a, b) = \frac{a \cdot b}{|a| \times |b|}]
其中,(a) 和 (b) 是文档,(\vec{a}) 和 (\vec{b}) 是对应的向量。相似度为 0 表示文档没有共同词汇,相似度为 1 表示文档完全相同。
网络比较与图匹配密切相关,图匹配可分为精确匹配和不精确匹配。精确匹配用于检测两个图是否同构,不精确匹配则尝试计算将一个图转换为另一个图所需的操作数量(图编辑距离)或图之间的相似程度(图相似度)。
在自然语义网络(NSN)相似度测量方面,我们的方法是将网络压缩为加权特征向量,然后计算这些向量的余弦相似度。每个特征由网络的顶点或边表示,每个权重代表该特征的重要性。由于 NSN 的核心由其定义者(同一主题的网络中目标概念通常是固定的)构成,我们将 NSN 表示为一个图,其中每个顶点是一个定义者,每条边是一对定义者之间的相似度或接近度。
为了确定哪些定义者相关以及它们的接近程度,我们考虑定义者图是从概念 - 定义者加权二分图投影而来的。在这个二分图中,当定义者属于概念的 SAM 组时,概念和定义者之间存在一条边,边的权重就是该定义者在该组中的 m 值。
在定义者投影中,如果两个定义者出现在一个或多个 SAM 组中,则它们之间存在一条边。为了计
超级会员免费看
订阅专栏 解锁全文
16

被折叠的 条评论
为什么被折叠?



