中文名词回指描述生成的实证研究
1. 引言
在中文里,回指词可分为零形式、代词形式和名词形式。例如“张三惊慌地往外跑,(他)撞到一个人,他看清了那个人的长相,(他)认出那个人是谁”,其中“(他)”是零形式回指,“他”是代词回指,“那个人”是名词回指。
此前已建立了一套包含句法、语义和语篇导向约束的规则,用于决定零形式、代词和名词回指的生成。然而,名词回指没有像零形式和代词回指那样的独特形式,其描述可以与“初始指称”相同,也可以去除初始指称中的部分信息、添加新信息,甚至使用不同的词汇项。本文旨在研究中文自然语言生成中名词回指合适描述的选择。
以往自然语言生成相关研究主要聚焦于为实体创建“指代表达”,以将其与读者假定关注的一组对象区分开来。这些算法能高效创建描述以明确识别“预期指称对象”,但生成的描述仅反映了语篇的注意力方面。本文尝试从语篇的另一个方面,即意图,来研究名词回指描述的作用,并提出一个偏好规则,用于选择不同的名词回指描述以反映语篇中的意图转变。为验证该规则的有效性,对三组中文文本进行了两次实验。
2. 测试数据中名词回指的分析
中文名词回指的表层结构是一个名词短语,由一个中心名词和可选的关联短语、冠词、关系从句和形容词组成。本文研究的名词描述可看作是上述结构中不含冠词的名词短语。如果名词回指的中心名词与初始指称相同,且其修饰部分是初始指称可选部分的严格子集,则称其为初始指称的“简化形式”;若与初始指称相同,则为“完整描述”。
观察测试数据中出现的名词回指,可将名词描述分类如下:
| 类型 | 初始指称 | 名词回指 |
| ---- | ---- | ---- |
| A | z
超级会员免费看
订阅专栏 解锁全文
656

被折叠的 条评论
为什么被折叠?



