语义网搜索与归纳推理:从理论到实践
1. 函数定义与特征权重
在语义网搜索和归纳推理中,函数 $\delta_i$ 有另一种定义方式。它要求对断言 $(¬)F_i(x)$ 进行逻辑蕴含判断,而非简单的 ABox 查找。这种方式虽然使测量更准确,但计算也更复杂。而且,使用逻辑蕴含时,归纳是在演绎的基础上进行的,可看作是演绎的一种补充。
在一系列测量中,权重 $w_i$ 应反映单个特征 $F_i$ 相对于整体差异的影响。这由特征所传达的信息量决定,通过熵来衡量。具体而言,属于 $F_i$ 的概率可以用 $F_i$ 相对于整个对象域(相对于规范解释 $I$)的扩展度量来量化:$P_{F_i} = \mu(F_i^I)/\mu(\Delta^I)$,大致可近似为 $|{x \in P \cup O | F_i(x) \in A}| / |P \cup O|$。考虑到 $F_i$ 的补集相关概率 $P_{\neg F_i}$ 以及未分类个体相关概率 $P_{U_i}$,可得到特征的熵度量:$H(F_i) = -[P_{F_i} \log(P_{F_i}) + P_{\neg F_i} \log(P_{\neg F_i}) + P_{U_i} \log(P_{U_i})]$。此外,这些权重也可基于每个特征的方差来确定。
2. 特征集优化
测量定义的基本思想是相似个体在概念集 $F$ 上应表现出相同行为。我们假设特征集 $F$ 包含足够数量(可能冗余)的特征,能够区分真正不同的个体。初步实验表明,即使使用知识库中的原始和定义概念集,该测量在基于实例的分类(最近邻算法)和相似性搜索中也很有效。然而,选择包含在集合 $F$ 中的概念至关重要,这可能是一个需要解决的初步学习问
超级会员免费看
订阅专栏 解锁全文
588

被折叠的 条评论
为什么被折叠?



