统计词义消歧新方法探索
词义消歧(WSD)在自然语言处理领域一直是热门话题,它对信息检索、文本挖掘、机器翻译等应用至关重要。随机解决方案通过统计方法从训练语料库中获取语言知识并应用于消歧。自1991年Brown构建第一个随机模型以来,多种机器学习方法被应用于WSD。
存在的问题
- 现象P - 1 :在基于统计学习的WSD中,如果歧义词语义频率差异大,判断结果会倾向于最大概率的词义,这在大规模真实语料中很常见。以Gale提出的基线值为例,对于频率比为9:1的二义性单词,基线精度可达90%,很难超越。这种现象在基于贝叶斯模型的WSD方法中更为明显。贝叶斯决策规则的数学表达式为:
[
s^{\prime\prime r}= \arg\max P (s_k|C_{context}) = \arg\max \frac{P(s_k)P (C_{context}|s_k)}{P (C_{context})} = \arg\max P (C_{context}|s_k) P(s_k) = \arg\max [\log P (C_{context}|s_k) + \log P (s_k)]
]
其中,(s_k \neq s^{\prime}),(C_{context})是上下文环境,(s_k)是歧义单词的任何词义变量,(s^{\prime})是正确词义,(P)是概率。公式中的参数(P(s_k))可能是现象P - 1的主要原因。 - 现象P - 2 :公式(2)(s’ = \arg\max P (C_{context}|s_k))在词义判断上比公式(1)有更高的准确率。对2
超级会员免费看
订阅专栏 解锁全文
1005

被折叠的 条评论
为什么被折叠?



