基于相似性技术预测中文复合词词性标签和形态句法关系
引言
在自然语言处理(NLP)的各个领域,词汇语义资源的重要性不言而喻,涵盖了从分词、浅层句法分析、语义角色标注到问答系统和文本分类等多个方面。然而,即便是像WordNet这样的大型词汇数据库,也无法包含广泛NLP应用中遇到的所有词汇。这些资源的质量在很大程度上依赖于词典编纂者的大量工作,他们需要跟上语言演变和相关领域知识发展的步伐。
中文的情况更为复杂,每个中文语素都有其意义,新的词汇可以通过语素的简单拼接形成,而且中文词汇之间没有明显的分隔符。这导致中文中的未登录词(OOV)数量庞大,准确识别这些词的词性(POS)标签成为中文NLP中的一项具有挑战性的任务。
另一方面,大多数中文词汇是由两个或更多语素组成的复合词。中文的音节、字符和语素之间通常存在直接对应关系,一个印刷中的汉字几乎总是代表一个音节,而这个音节往往也是一个语素。中文复合词中语素的组合并非随机,而是呈现出多种不同的形态句法关系,主要包括向心关系、并列关系、主谓关系、动宾关系、动/形补关系等。
除了一些语义不透明的离心名词复合词,如“东西”,典型的向心修饰 - 名词/动词关系和并列关系中的语素都对词汇意义有贡献。Packard指出,中文词汇与其组成部分之间存在密切关系,形态关系不仅有助于理解中文,还能确定中文词汇中的语义核心语素。例如,在向心复合词“绿叶”中,第二个语素“叶”是语义核心,表达了整个词汇的主要意义,第一个语素“绿”则起到修饰作用。同样,并列关系中的语素在指示词汇意义方面具有相似的作用,它们具有相同的词汇属性,意义相似或相反,如“跳跃”中的“跳”和“跃”。
本研究旨在设计并实现一种预测中文复合词词性的方法。同时,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



