Raki的读paper小记:BART

Abstract&Introduction&Related Work

  • 研究任务
    预训练语言模型
  • 已有方法和相关工作
    BERT等
  • 面临挑战
    已有的方法依赖下游任务
  • 创新思路
    • 融合了双向和自回归模型
    • 随机打乱原始句子的顺序,并同时使用一种novel的填空方案,文本的span只用一个masked token置换,取得了最好的效果
  • 实验结论

在预训练阶段,encoder类似bert,decoder类似gpt,一个双向一个自回归

在fine-tune阶段,未被破坏的文本被同时输入到encoder和decoder,用decoder的最后隐藏层作为表示

这种设置的一个关键优势是去噪的灵活性;可以对原始文本进行任意的转换,包括改变其长度
在这里插入图片描述

BART

使用跟transformer一样的结构,区别有两点:

  1. decoder的每一层都跟最后一层隐藏层做交叉注意力
  2. 没有像BERT一样在词预测前设置的一个全连接层
  3. 比同层数BERT多10%的参数

decoder的输出和原文本做交叉熵损失,BART允许所有类型的文本破坏

如图:

text infilling受到spanBERT的启发,但是spanBERT用等长的『MASK』

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值