TJU自然语言处理(5):词义消岐
定义
语义歧义:很多词语具有几个意思或语义,如果将这样的词从上下文中独立出来,就会产生语义歧义。就是必须通过其语境来确定其含义的词汇。
比如:生意清淡和口味清淡。
语义消岐(WSD):确定一个歧义词的哪一种语义在一个特殊的使用环境中被调用。
WSD需要解决的三个问题:
- 如何判断一个词是不是多义词
- 对每个需要进行义项标注处理的多义词,预先得有关于它的各个不同义项的清晰的区分标准,也即如何表示一个多义词的不同意思
- 对出现在具体语境中的每个多义词,给它确定一个合适的义项
我们通过一个词周围的搭配词,即上下文语境来了解意义。
预备知识
有监督和无监督学习
算法性能的上界和下界
有监督学习
- 训练数据已知(语义标注)
- 分类任务
- 函数拟合(function-fitting):基于一些数据点推断出函数的形态
无监督学习
- 训练数据的分类未知
- 聚类任务(clustering task)
现实情况
- 从未标注数据中学习
- 使用多种知识源
- 建立种子集→从未标注数据中学习→扩大种子集→获取大规模标注语料
伪词
在测试数据难以获得的情况下,可方便地产生一些人工数据,用来比较和提高算法性能。在语义消歧的情况下,这些人工数据称为伪词。
- 例如,合并两个或多个自然词汇,
创建伪词banana-door,代替语料库中出现的所有banana和door
这样做的意义在于:既回避了手工标注的困难,又可以为消歧问题轻松创

最低0.47元/天 解锁文章
2695

被折叠的 条评论
为什么被折叠?



