NMT、enc-dec的一些笔记

本文探讨了传统Encoder-Decoder模型的工作原理,包括编码阶段如何生成context vector,并详细解释了解码阶段采用预测值反馈和教师强制指导两种不同策略及其优缺点。
部署运行你感兴趣的模型镜像

传统的Encoder-Decoder

1、在编码的时候,接收输入X=x1,x2,,xTX=⟨x1,x2,…,xT⟩,生成context vector CC
2、训练阶段,在解码的时候

2.1、从C出发预测ŷ 1y^1,再依次用ŷ i1y^i−1预测ŷ iy^i即使用预测的Ŷ Y^而不是真实值YY,这样的做法就是让模型自己去学习。这样容易产生误差累积的问题,导致模型学习收敛比较慢。

2.2、如果每次使用真实值的yi1来作为输入生成预测值ŷ iy^i,这样的做法就是teacher forcing,也就是加入教师强制指导,这样的好处就是更快的收敛,但是更偏向于单个正确值预测,而在测试的时候这种教师信息是没有的,因此可能导致模型的泛化能力不够。

3、因此可以设定一个比例,作为两种方式的折中

您可能感兴趣的与本文相关的镜像

Seed-Coder-8B-Base

Seed-Coder-8B-Base

文本生成
Seed-Coder

Seed-Coder是一个功能强大、透明、参数高效的 8B 级开源代码模型系列,包括基础变体、指导变体和推理变体,由字节团队开源

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值