深入解析Freebase数据集:挑战、处理与实验评估
1. 类型系统构建与应用
在构建类型系统时,主要有两个关键步骤。
第一步,排除概率低于阈值的候选类型。若 $P(o \in t) < \alpha$,即 /film/film/performance 对象端属于类型 $t$ 的概率小于阈值 $\alpha$,则排除该候选类型。其目的是仅保留具有足够覆盖度的候选类型。例如,在数据集中,$P(o \in /film/actor) = 0.9969$,$P(o \in /tv/tv actor) = 0.1052$,$P(o \in /music/artist) = 0.0477$,$P(o \in /award/award winner) = 0.0373$,$P(o \in /people/person) = 0.998$。当阈值 $\alpha = 0.95$ 时, /tv/tv actor 、 /music/artist 和 /award/award winner 被排除。
第二步,从剩余候选类型中选择最具体的类型。最具体类型由 $\arg \min_{t’ \neq t} P(o \in t|o \in t’)$ 给出,其中 $t$ 和 $t’$ 来自剩余候选类型。$P(o \in t|o \in t’)$ 是 Freebase 实体 $o$ 在属于类型 $t’$ 的条件下属于类型 $t$ 的条件概率。在数据集中,$P(o \in /people/person | o \in /film/actor) = 0.9984$,$P(o \in /film/actor | o
超级会员免费看
订阅专栏 解锁全文
84万+

被折叠的 条评论
为什么被折叠?



