基于参数化的人称代词处理
1. 引言
人称代词(P - 代词)在自然语言中扮演着重要角色。其指示功能是确定参与特定言语行为的人,而回指功能则是替换同一文本中出现的名词,从而创建对相应实体的引用。
为了对包含代词的文本进行自动处理,有必要对 P - 代词在不同语言表征层面的相关特征进行形式化描述(参数化),具体如下:
- 为了识别文本中代词词位的特定形式,需要了解 P - 代词的屈折特性,在欧洲语言中,这些特性比名词更为复杂。
- 为了识别代词与句法相关的限定形式动词之间的形态 - 句法一致性,需要了解暗示这种一致性的所谓句法特征。
- 为了解决代词 - 先行词关系(回指链接),需要确定 P - 代词和相应名词的那些允许这种关系的语义特征。
- 如果 P - 代词具有与指示和回指功能无关的语义特征,则应全面列出。
- 为了利用同一文本中以不同形式出现两次或更多次的给定代词词位的所有信息,有时需要与常用语法相比,通过重新划分和细分代词词位。
- 为了实现从一种语言(或方言)到另一种语言的自动翻译,研究 P - 代词的哪些语义特征是跨语言通用的,哪些不是,是非常热门的话题。
本文研究属于标准平均欧洲语言的语言的 P - 代词特征,即印欧语系的一个亚家族,包括罗曼语族、日耳曼语族、斯拉夫语族和波罗的语族。不过,仅以两种语言为例:塞尔维亚 - 克罗地亚语(斯拉夫语)和西班牙语(罗曼语)。
2. 屈折范畴、共现参数和句法特征
2.1 屈折范畴
屈折范畴表征了作为一组词形的词位的“内部坐标系统”。每个词性(POS)都有自己的屈折范畴集,通常同一词性的所有词位的屈折范畴
超级会员免费看
订阅专栏 解锁全文
3699

被折叠的 条评论
为什么被折叠?



