基于统计的语义消岐基础

基于统计的语义消岐基础

 

语义消岐一般包含两类问题:

一是对有多次性的词的词性标注。例如:station

二是在一个词性下不同语义的处理。

 

前一种情况通常利用邻近的结构信息。而后一种情况更多地考虑相隔距离很远的实词对语义的影响。

 

Supervised learning and unsupervisedlearning

 

伪词的制造。

 

算法上界和算法下界

算法上界是指算法能达到的最好的消岐效果。语言可能存在本性上的歧义或多义,不可能通过算法进行消岐。一般把人进行消岐的情况当做算法的上界,而把概率较高语义当做答案的准确率作为消岐程序的下界。

 

在进行消岐实验时人工进行歧义标注是很困难的,所以可以通过构造伪词,人工的制造歧义词汇,来得到廉价语料库。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值