语义角色标注需要提取以动词为核心的所有信息,包含什么时间、什么地点、动作对象以及谁作出了这个动作。
语义角色标注中的几个重要概念:
- 谓词:在一个句子中,谓语是对于主语的描述或判断的词,通常为一个动词。在句中谓词指出“做什么”、“是什么”、“怎么样”,代表了一个句子的核心。
- 论元:在句子中和谓词搭配的通常是一个名词,我们称其为论元。
- 语义角色:我们在为论元加上一些描述,指出它和动词搭配时担任的角色或者作用。如:时间、地点、施事者、受事者、客体、经验者、受益者、工具、目标、来源等。
- 语义角色标注:是以句子的谓词为中心的一种对于句子的浅层分析。标注过程不对句子包含信息的进行升入分析,只分析句子中各成分与谓词之间的关系,即句子的谓词——论元结构,并给论元一个描述也就是用语义角色,这就是语义角色标注。通常语义角色标注可以提取句子中的一些结构化信息,这对于机器理解、信息抽取、深度问答等应用非常重要。
语义角色标注方法
传统方法是将语义角色标注任务拆分成不同的环节,过程可以分为句法分析、
候选论元剪除、论元识别、论元标注、标注结界。在研究中一般都是给假定谓词是给定的,所要做的是找出给定谓词的各个论元和它们的语义角色。
如果我们得到一个句法树,可以使用哈工大的语言云平台示例生成句法分析结果。
传统的语义角色标注系统大多数建立在句法分析基础上,通常包含5个流程:<