10、词语语义标注:现状、挑战与未来展望

词语语义标注:现状、挑战与未来展望

1. 语义标注的发展与重要性

在自然语言处理领域,基于语料库的实证计算语言学已广泛渗透。语义学方面,尤其是词语语义标注任务,取得了显著进展。例如,Yarowsky 在 1995 年的工作中,语义标注成功率高达 90%以上,远超 1990 年新墨西哥州一项非正式实验中 62%的关键基准。过去人们认为,若能解决词语语义歧义问题(即通过语义标注),高质量的机器翻译将相对容易实现,因此语义标注成为了一项重要且传统的任务。

2. Kilgarriff 的观点及问题分析

Kilgarriff 在 1993 年的论文中提出,字典(如 LDOCE)所区分的词语语义,无法涵盖语料库中该词语大多数实际出现时的语义。他以“银行模型”(BM)为起点进行论证,该模型认为词语具有离散的含义,人类读者(如理想的计算机程序)能轻松辨别词语的适用含义。然而,Kilgarriff 的分析存在诸多问题:
- 混淆概念 :他将文本用法与字典中存储的词语语义列表不同,和文本用法偏离词典中的“核心”语义这两个概念混淆。实际上,只有后者才属于隐喻/转喻或“研磨”的研究范畴。
- 实验结果误导 :他声称文本样本中 87%的(非单义词)词语至少有一个文本实例无法与 LDOCE 中的单一语义相关联,但这一关于词型的说法与 99%的文本用法(词元)能与字典单一语义相关联并不矛盾,其实际主张具有很大的误导性。
- 忽视相关研究 :他未参考新墨西哥州等地(如 Cowie 等人 1992 年的工作)对语料库进行大规模语义标注的研究,这些研究结果与他的结论直接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值