调整SyntaxNet以进行意大利语句子词性标注
1. 引言
近年来,认知系统这类新型智能系统愈发重要,它们能学习、推理,并以自然、个性化、反应式和/或主动式的方式与人类广泛互动。问答(QA)系统作为认知系统的一种,主要为文本或口语形式的自然语言问题提供简短且相关的答案。词性(POS)标注和句法分析是QA系统中极为重要的自然语言处理(NLP)技术,用于处理问题并确定相应答案。
词性标注为文本或句子中的每个单词分配适当的语法标签,通常先于句法分析,对QA系统理解句子和问题的结构至关重要。当QA系统处理口语句子或问题时,词性标注的复杂度会增加,因为口语结构与书面语不同,处理中的一些关键信息(如标点)需推断,且存在语言偏差现象,影响标注准确性。
在意大利语中,口语中的黏着代词比书面语更丰富。黏着代词可分为两类:附着在屈折动词后的称为词尾黏着形式,在非正式或友好语境中更常见;位于屈折动词前的称为词首黏着形式,在正式写作或演讲中更常见。显然,词首黏着形式比词尾黏着形式更容易标注,因为后者中代词和动词组合成了单个单词,词尾黏着表达式的词性标注是意大利语NLP中常见且未解决的瓶颈。
目前,意大利语词性标注的先进系统是TINT,但它在标注词尾黏着表达式时准确性不高。而Google发布的NLP框架SyntaxNet,其预训练的Parsey Universal模型可处理40种语言,包括意大利语,虽然整体准确率低于TINT,但在标注词尾黏着形式方面表现更好。因此,本文旨在研究如何改进SyntaxNet,以提高其为意大利语词尾黏着形式标注最合适词性标签的能力。
2. 背景与相关工作
词性标注是大多数NLP系统的关键任务,近年来受到广泛关注。
超级会员免费看
订阅专栏 解锁全文
1385

被折叠的 条评论
为什么被折叠?



