语言处理中的中心理论与指代消解策略
中心理论基础
中心(Center)在语言处理中是一个重要的概念,它以名词短语的形式表达,是一种语用构建,被定义为话语所围绕的实体。对于每个话语 U,会分配一个前向中心列表 Cf(Un),该列表包含话语中所有按语法功能排序的名词性表达,这与英语中成分的线性顺序相对应。而后向中心 Cb(Un) 是 Un 中排名最高的元素,并且如果可能的话,它也会出现在 Cf(Un - 1) 中。排名的主要标准是代词化和主语性,通常可解析的代词是首选的中心候选。
中心算法的扩展
自中心模型引入以来,已经有了各种改进,主要包括以下几个方面:
1. 确定性 :定冠词常常指向中心,但确定性与实体在先前话语中被引入的关联并非绝对。例如,专有名词可能在文本中是新出现的,但仍然是确定的。因此,确定性被纳入中心评估的因素中,不定名词短语则被视为新的话语实体。
2. 词汇重复 :词汇重复项包括可能带有冠词、所有格或指示词的重复或同义词名词短语。基于词典中编码的同义词的语义等价也被视为有效的重复实例。
3. 指称距离 :对于代词和重复的名词,允许的最大指称距离(以回溯的从句数量衡量)与所涉及成分的词长相关。短的指称表达式的解析项比长的更接近,限制指称距离可以减少对常见通用表达式(如 it)过度解释的风险。目前尚未对将指称类型与允许的指称距离相关联的各种函数进行实验,简单的线性依赖(因子为 1 - 2)似乎是合理的。
中心值的计算
不同类型的名词短语有不同的中心值,具体如下表所示:
|
超级会员免费看
订阅专栏 解锁全文
173

被折叠的 条评论
为什么被折叠?



