BERT-based Lexical Substitution论文阅读

该博客探讨了传统词汇替换方法的局限性,如依赖同义词且忽视对整个文本的影响。提出了一种新的方法,通过BERT模型的embedding dropout技术平衡目标词的语义和上下文信息。在完全遮盖目标词的情况下,候选词可能在保持上下文连贯性的前提下与原词意义不同。计算相似度时,使用了BERT前四层表示的拼接。推荐系统结合了词的似然和句子的余弦相似度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要:

之前的词汇替换是通过查询目标词汇的同义词来实现的(e.g. WordNet), 然后基于文本对候选词打分。这种方法有两个限制:

  1. 忽略了不是同义词的但是效果很好的候选词汇

  2. 没有考虑同意替换对整个文本的影响

主体:

对目标词进行embedding dropout,使得可以平衡目标词的语义信息和上下文信息。

如果完全遮盖,返回的候选词可能与原词意思不同,却能满足上下文信息;

如果不遮盖,返回的候选词大约99.99%会预测到原词。

计算相似度时,将BERT前四层的表示做拼接来计算相似度。

推荐时使用了词的似然和句子的余弦相似度求和:

 

Reference:

Zhou, W., Ge, T., Xu, K., Wei, F., & Zhou, M. (2019, July). BERT-based lexical substitution. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp. 3368-3373).

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值