探索双关语的计算奥秘:检测、生成与幽默机制
1. 双关语序列测试与类型区分
在处理可能的双关语时,可利用语音模型替换双关语并测试生成序列的可行性。例如,对于 “How does Moses make his tea? Hebrews it” 这样的双关谜语,系统会依据语音相似性,将 “Hebrews” 替换为 “He brews”,再借助语言模型为结果字符串分配概率。显然,“He brews it” 在英语中的出现概率远高于 “Hebrews it”,说明恢复后的形式作为英语句子更自然。
双关语主要分为异文双关(heterographic puns)和同形双关(homographic puns)。异文双关中,双关词与其目标词形式不同,如 “jab” 与 “job”;同形双关里,双关词与其目标词拼写相同,像 “I was a banker until I lost interest” 中 “interest” 一词。从口语角度,也有类似的同音/异音区分,不过相关研究主要聚焦于在线文本中的书面双关。
异文双关通常较为明显,而同形双关则隐藏于普通语境中,只能通过其双重含义来识别。同形双关往往是意外产生的,语言模型在检测这类完美双关时作用有限,因为它与使用语境融合得太好。检测同形双关需关注与话语更大主题相呼应的次要含义,这就涉及到词意消歧(Word Sense Disambiguation,WSD)这一计算过程。
2. 双关语检测系统与评估
2017 年的一项双关语检测任务从三个角度考量双关语:检测(给定话语是否包含双关)、定位(话语中哪个词暗示了双关的多重含义)和解释(该双关词在 WordNet 中的显著词义)。有十一个来自不同国家和机构的系
超级会员免费看
订阅专栏 解锁全文
294

被折叠的 条评论
为什么被折叠?



