迈向逻辑程序的近似本体无关方法
在逻辑程序的处理中,语义匹配和推理是关键问题。传统方法往往在处理词汇差异和语义模糊时表现不佳,而本文提出的近似本体无关方法为解决这些问题提供了新的思路。下面将详细介绍该方法的核心内容。
1. 基础模型构建
该方法基于一个由集合对 (Term, Context) 构成的参考语料库。其中,Term 是术语集合,Context 是语料库中的上下文窗口集合。例如,一组文档可视为上下文窗口集合,文档中出现的所有术语构成术语集合。
术语集合用于定义术语向量空间 VS term 的基 Termbasis,上下文窗口集合用于定义分布向量空间 VS dist 的基 Contextbasis。在 VS term 中,上下文窗口 cj 可表示为:
[
\overrightarrow{c_j} = \sum_{i=1}^{t} v_{i,j} \overrightarrow{k_i}
]
其中,若术语 ki 出现在上下文窗口 cj 中,$v_{i,j}$ 为 1,否则为 0。
在 VS dist 中,术语 x 表示为:
[
\overrightarrow{x} = \sum_{j=1}^{t} w_j \overrightarrow{c_j}
]
其中,$w_j$ 是归一化术语频率 $tf_j$ 与逆文档频率 idf 的乘积,即:
[
w_j = tf_j \times idf = \frac{freq_j}{count(c_j)} \times \log \frac{N}{n_{cj}}
]
这里,$freq_j$ 是术语 x 在上
超级会员免费看
订阅专栏 解锁全文
523

被折叠的 条评论
为什么被折叠?



