词语语义消歧:原理、算法与应用
1. 词语语义消歧概述
词语语义消歧旨在解决自然语言中许多词语具有多种含义或语义所带来的歧义问题。例如,“bank”这个词,在韦氏新大学词典中有“湖、河或海的堤岸”以及“金融机构”两种含义。脱离上下文时,就难以确定其确切含义。
语义消歧的任务就是根据词语使用的上下文,确定该词语在特定语境中所调用的语义。通常认为,一个词语具有有限数量的离散语义,这些语义常由词典、同义词词典或其他参考资料给出。程序的任务是根据使用上下文,在这些语义中为每个歧义词语的使用含义做出强制选择。
然而,实际情况往往并非如此简单。以“title”为例,它在词典中有多种语义,包括“书籍、法规、艺术作品或音乐作品等的名称/标题”“电影开头的素材”“(土地的)合法所有权”等。这些语义之间的界限并不清晰,不同词典对词语语义的划分数量和类型也存在很大差异,而且这种划分有时显得相当随意。
尽管存在这些哲学上的质疑,但语义消歧在自然语言处理的许多应用中具有明确的重要性。例如,在英德自动翻译系统中,“bank”的不同语义需要翻译成不同的德语词汇;信息检索系统在处理关于“金融银行”的查询时,需要只返回使用“bank”金融机构语义的文档。
此外,还有一种歧义是词语可以用作不同的词性,如“butter”既可以作名词,也可以作动词。确定词语的词性被称为词性标注。词性标注和语义消歧这两个概念有一定关联,词性的不同使用通常意味着不同的含义,因此可以将其视为语义消歧问题;反之,区分词语语义也可以看作是一种使用语义标签而非词性标签的标注问题。在实践中,这两个主题有所区分,主要是由于问题的性质不同以及所采用的方法不同。一般来说,附近的结构线索对确定词性最有用,而对于确定词
超级会员免费看
订阅专栏 解锁全文
906

被折叠的 条评论
为什么被折叠?



