基于GLML的语义组合操作标注解析
1. 引言:语义标注的动机与过往工作
近年来,诸多用于编码语义信息的标注方案不断涌现,并被用于生成训练机器学习算法的数据集。早期的语义标记方案着重于标注实体类型以及更广泛的词义,如今已拓展到涵盖句子元素间的语义关系,例如谓词赋予论元的语义角色。
Generative Lexicon Markup Language(GLML)更进一步,试图捕捉论元选择相对于谓词的“组合历史”,以及修饰语相对于中心名词的解释。其重点在于识别组合操作的本质,而非仅仅标注论元选择中所涉及实体的表面类型。
以常见例子来说,“Mary called yesterday.”和“The Boston office called yesterday.”中,主语的语义类型区别(HUMAN与ORGANIZATION)可通过实体类型标注体现,但诸如FrameNet或PropBank的词义标注却无法捕捉这一差异。
SemEval Metonymy任务是在更大数据集上标注转喻关系的一次有益尝试,涉及地点和组织两类及其转喻变体:
- 地点类别:字面意义、地点代指人、地点代指事件、地点代指产品。
- 组织类别:字面意义、组织代指成员、组织代指事件、组织代指产品、组织代指设施。
然而,这种方法存在局限性,尽管适用于特定的转喻关系,但标注规范和由此产生的语料库并不能为更广泛地扩展论元选择标注提供有价值的指导。实际上,上述转喻例子只是论元选择中更为普遍的类型转换和强制现象的一个实例。
当前工作的目标有两个:一是创建一个广泛适用的论元选择组合操作规范;二是将该规范应用于自然语言文本语料库,以编码语言组合结构中涉及的选择机
超级会员免费看
订阅专栏 解锁全文
290

被折叠的 条评论
为什么被折叠?



