TJU自然语言处理(5):词义消岐

定义

语义歧义:很多词语具有几个意思或语义,如果将这样的词从上下文中独立出来,就会产生语义歧义。就是必须通过其语境来确定其含义的词汇。

比如:生意清淡和口味清淡。
语义消岐(WSD):确定一个歧义词的哪一种语义在一个特殊的使用环境中被调用。
WSD需要解决的三个问题:

  1. 如何判断一个词是不是多义词
  2. 对每个需要进行义项标注处理的多义词,预先得有关于它的各个不同义项的清晰的区分标准,也即如何表示一个多义词的不同意思
  3. 对出现在具体语境中的每个多义词,给它确定一个合适的义项

我们通过一个词周围的搭配词,即上下文语境来了解意义。

预备知识

有监督和无监督学习
算法性能的上界和下界

有监督学习

  1. 训练数据已知(语义标注)
  2. 分类任务
  3. 函数拟合(function-fitting):基于一些数据点推断出函数的形态

无监督学习

  1. 训练数据的分类未知
  2. 聚类任务(clustering task)

现实情况

  1. 从未标注数据中学习
  2. 使用多种知识源
  3. 建立种子集→从未标注数据中学习→扩大种子集→获取大规模标注语料

伪词

在测试数据难以获得的情况下,可方便地产生一些人工数据,用来比较和提高算法性能。在语义消歧的情况下,这些人工数据称为伪词。

  • 例如,合并两个或多个自然词汇,
    创建伪词banana-door,代替语料库中出现的所有banana和door

这样做的意义在于:既回避了手工标注的困难,又可以为消歧问题轻松创

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值