清华大学刘洋--基于深度学习的机器翻译(2)--- 受限词汇量/先验约束/训练准则...

探讨了神经网络翻译中受限词汇量的问题,包括未登录词处理、子词切分、相似词替换等方法,以及先验约束、注意力机制、一致性训练等优化策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

受限词汇量:我们不能把全部的所有词汇都汇总起来,这个集合太大了。我们只能选一些。

受计算复杂度的限制,仅能使用有限的词汇量。

 

这里有几种方法:

  1. 未登录词替换 unknown key replace :在后处理阶段,单独翻译未登录词
  2. 基于字母的模型。用更细粒度单元降低词汇量。
  3. 子词:BPE 合并高频字符串对实现子词切分。
  4. 相似词替换:用相似词代替未登录词进行训练

 

 

——————————————————————————————————————————————————————————————

先验约束是什么呢?

神经网络是数据驱动的,先验知识即数据以外的知识。

  1. 先验约束

覆盖率的约束:不应该重复翻译,也不能漏翻

 

 

注意力机制中的结构化约束,从神经网络自身进行约束,对函数约束

 

一致性训练:翻译的正向和反向的结果大致是一致的,具有互补性。

________________________________________________________________________________________________________________________________________________________________________

对于神经网络而言,极大似然估计越大越好。

 

exposure bias问题:

即在观测数据中,生成每一个目标词之前的所有词都是正确的。

而模型预测的生成词不能保证之前的每一个词是正确的。

 

————————————————————————

词级损失函数:

 

极大似然估计,只对每一个词,使用损失函数。它并不会考虑语序等

 

--------------

最小风险训练

 

柱搜索优化

 

MIXER: 利用增强学习针对评价指标优化模型。

 

转载于:https://www.cnblogs.com/vector11248/p/10382210.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值