词义消歧:原理、方法与应用
1. 引言
在自然语言中,许多词汇具有多种含义。例如,“light”可以表示“不重的”,也能表示“光线”。词汇出现的上下文决定了其具体含义。自动确定文本中词汇含义的过程被称为词义消歧(Word Sense Disambiguation,WSD),这是自然语言处理领域中一个历史悠久的研究课题。早在40多年前,WSD就被视为机器翻译中的一项重要任务。
词义消歧之所以困难,部分原因在于语言中存在多种不同类型的词义区分。常见的词义区分类型如下:
- 同形异义(Homonymy) :当词义明显不同且无明显关联时出现,如“bank”有“河岸”和“金融机构”两种含义。
- 一词多义(Polysemy) :可能的词义之间存在某种关联,但同形异义与一词多义的界限并不清晰。例如,“leak”有“让液体泄漏”和“泄露信息”两种含义,它们都涉及“让某物流出”这一共同点;“mouse”有“动物”和“计算机设备”两种含义,原因是二者外形相似。
- 规则多义(Regular polysemy) :一组词汇共享一组可预测的替代含义。例如,家禽的名称(如“duck”“chicken”“turkey”)都有“食物”和“动物”两种含义。
- 转喻(Metonymy) :使用修辞手法时,词汇的含义可能与其相关事物有关。例如,“Wall Street”在“Third quarter results exceed Wall Street expectations”中,指的是美国的金融行业,而非曼哈顿下城的一条街道。
超级会员免费看
订阅专栏 解锁全文
876

被折叠的 条评论
为什么被折叠?



