21、语言处理中的中心理论与指代消解策略

语言处理中的中心理论与指代消解策略

中心理论基础

中心(Center)在语言处理中是一个重要的概念,它以名词短语的形式表达,是一种语用构建,被定义为话语所围绕的实体。对于每个话语 U,会分配一个前向中心列表 Cf(Un),该列表包含话语中所有按语法功能排序的名词性表达,这与英语中成分的线性顺序相对应。而后向中心 Cb(Un) 是 Un 中排名最高的元素,并且如果可能的话,它也会出现在 Cf(Un - 1) 中。排名的主要标准是代词化和主语性,通常可解析的代词是首选的中心候选。

中心算法的扩展

自中心模型引入以来,已经有了各种改进,主要包括以下几个方面:
1. 确定性 :定冠词常常指向中心,但确定性与实体在先前话语中被引入的关联并非绝对。例如,专有名词可能在文本中是新出现的,但仍然是确定的。因此,确定性被纳入中心评估的因素中,不定名词短语则被视为新的话语实体。
2. 词汇重复 :词汇重复项包括可能带有冠词、所有格或指示词的重复或同义词名词短语。基于词典中编码的同义词的语义等价也被视为有效的重复实例。
3. 指称距离 :对于代词和重复的名词,允许的最大指称距离(以回溯的从句数量衡量)与所涉及成分的词长相关。短的指称表达式的解析项比长的更接近,限制指称距离可以减少对常见通用表达式(如 it)过度解释的风险。目前尚未对将指称类型与允许的指称距离相关联的各种函数进行实验,简单的线性依赖(因子为 1 - 2)似乎是合理的。

中心值的计算

不同类型的名词短语有不同的中心值,具体如下表所示:
|

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值