文本省略解析与形态分析的技术探索
1. 文本省略解析
1.1 解析基础准则
在文本省略解析中,有几个重要的基础准则。首先是路径长度标准,在 OE 约束(特别是要求每个子世界具有相同概念密度的约束)下,路径长度标准对于估计概念接近度是有意义的。另外,有限路径长度推理也很关键,可能的先行词和省略表达式的有效对表示 DKB 中的概念,其概念关系(角色链)是基于相当受限的路径长度条件构建的,在实验中,有效链的单位长度从未超过 5,这意味着这些角色链必须能够被高效计算。
1.2 功能中心原则
概念标准虽然非常重要,但对于正确解析文本省略来说是不够的。当替代先行词的角色长度相等时,需要额外的标准。因此,在模型中纳入了基于话题/评论模式的各种功能标准,这些模式源于对底层话语的(依赖)结构分析。这里采用了著名的中心模型,区分了每个话语的后向中心(Cb(Un))和前向中心(Cf(Un))。Cf 元素的排名反映了这样的假设:Cf(Un) 中排名最高的元素是话语 Un + 1 中回指或省略表达式的最优选先行词,其余元素则根据建立指称链接的偏好程度递减排序。
与原始中心方法的主要区别在于对前向中心排名的标准。对于英语,Grosz 等人假设语法角色是 Cf 排名的主要决定因素,而对于德语这种词序相对自由的语言,排名依据是句子基于话题/评论模式的功能信息结构。在这个框架中,话题(主题)表示已知信息,评论(述题)表示新信息。这种区分可以很容易地用中心模型来重新表述,主题对应于 Cb(Un),即出现在 Un 中 Cf(Un - 1) 排名最高的元素。Un 的主题/述题层次结构由 Cf(Un - 1) 决定:Un 中包含在 Cf(Un - 1) 中的元素(上下文相关
超级会员免费看
订阅专栏 解锁全文
626

被折叠的 条评论
为什么被折叠?



