文本信息性与百科风格的对比分析及卫星影像应急评估应用
语言特征对文本表达的影响
在句子中,外来词和项目标记能够明确地使陈述表述得更加精确和简洁。相反,情态助动词的出现会让陈述变得更模糊、更隐晦。
利用通用依存关系进行事实提取
为了准确提取事实并恰当区分其类型,我们采用了句法依存关系。通用依存关系(Universal Dependencies,UD)解析器被用于此,因为它能为多种语言最充分地分析动词组、从句和多词表达式。UD的依存表示源于斯坦福依存关系(Stanford Dependencies,SD),后者遵循了许多语言框架中以语法关系为重点的描述理念,围绕主语、宾语、从句补语、名词限定词、名词修饰语等概念组织。在依存语法中,动词被视为句子结构的中心,句子中的其他单词要么直接、要么间接地与动词相连,就像动词是事实的核心组成部分,动作的所有参与者都依赖于由动词表示的谓语。
为了分析,我们使用了UD v1中英语句子里40种语法关系中的7种。为提取主语事实(subj - fact),我们区分了三种依存类型:nsubj(表示句子根动词的句法主语依存)、nsubjpass(表示被动句的句法主语)和csubj(表示从句的句法主语)。为提取宾语事实(obj_fact),我们区分了obj(表示被作用的实体或经历状态或运动变化的实体)、iobj、dobj和ccomp(用于更具体地表示动作对象对动词的依存关系)。
考虑到根动词是依存语法中句子的结构中心,我们还区分了可以从文本中提取的其他类型的事实,包括由根动词形成的事实类型(root_fact、subj_fact_root、obj_fact_root、subj_obj_fact_root、complex_
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



