词语语义标注:现状、挑战与未来展望
1. 语义标注的发展与重要性
在自然语言处理领域,基于语料库的实证计算语言学已广泛渗透。语义学方面,尤其是词语语义标注任务,取得了显著进展。例如,Yarowsky 在 1995 年的工作中,语义标注成功率高达 90%以上,远超 1990 年新墨西哥州一项非正式实验中 62%的关键基准。过去人们认为,若能解决词语语义歧义问题(即通过语义标注),高质量的机器翻译将相对容易实现,因此语义标注成为了一项重要且传统的任务。
2. Kilgarriff 的观点及问题分析
Kilgarriff 在 1993 年的论文中提出,字典(如 LDOCE)所区分的词语语义,无法涵盖语料库中该词语大多数实际出现时的语义。他以“银行模型”(BM)为起点进行论证,该模型认为词语具有离散的含义,人类读者(如理想的计算机程序)能轻松辨别词语的适用含义。然而,Kilgarriff 的分析存在诸多问题:
- 混淆概念 :他将文本用法与字典中存储的词语语义列表不同,和文本用法偏离词典中的“核心”语义这两个概念混淆。实际上,只有后者才属于隐喻/转喻或“研磨”的研究范畴。
- 实验结果误导 :他声称文本样本中 87%的(非单义词)词语至少有一个文本实例无法与 LDOCE 中的单一语义相关联,但这一关于词型的说法与 99%的文本用法(词元)能与字典单一语义相关联并不矛盾,其实际主张具有很大的误导性。
- 忽视相关研究 :他未参考新墨西哥州等地(如 Cowie 等人 1992 年的工作)对语料库进行大规模语义标注的研究,这些研究结果与他的结论直接
超级会员免费看
订阅专栏 解锁全文
739

被折叠的 条评论
为什么被折叠?



