基于统计的语义消岐基础
语义消岐一般包含两类问题:
一是对有多次性的词的词性标注。例如:station
二是在一个词性下不同语义的处理。
前一种情况通常利用邻近的结构信息。而后一种情况更多地考虑相隔距离很远的实词对语义的影响。
Supervised learning and unsupervisedlearning
伪词的制造。
算法上界和算法下界
算法上界是指算法能达到的最好的消岐效果。语言可能存在本性上的歧义或多义,不可能通过算法进行消岐。一般把人进行消岐的情况当做算法的上界,而把概率较高语义当做答案的准确率作为消岐程序的下界。
在进行消岐实验时人工进行歧义标注是很困难的,所以可以通过构造伪词,人工的制造歧义词汇,来得到廉价语料库。