UNILM-Bert与Seq2Seq结合

最新推荐文章于 2025-08-14 00:30:00 发布

转载最新推荐文章于 2025-08-14 00:30:00 发布 · 456 阅读

·

1

·

CC 4.0 BY-SA版权

原文链接：https://kexue.fm/archives/6933

文章标签：

#语音识别 #深度学习 #人工智能

本文探讨了微软的两项重要工作MASS和UNILM，前者通过Transformer架构进行Seq2Seq预训练，后者则以Bert为单一模型实现Seq2Seq任务，重点在于UNILM的mask技术。

将Bert与Seq2Seq结合的比较知名的工作有两个：MASS和UNILM，两者都是微软的工作，两者还都在同一个月发的～其中MASS还是普通的Seq2Seq架构，分别用Bert类似的Transformer模型来做encoder和decoder，它的主要贡献就是提供了一种Seq2Seq思想的预训练方案；真正有意思的是UNILM，它提供了一种很优雅的方式，能够让我们直接用单个Bert模型就可以做Seq2Seq任务，而不用区分encoder和decoder。而实现这一点几乎不费吹灰之力——只需要一个特别的Mask。

摘自：从语言模型到Seq2Seq：Transformer如戏，全靠Mask

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。