将Bert与Seq2Seq结合的比较知名的工作有两个:MASS和UNILM,两者都是微软的工作,两者还都在同一个月发的~其中MASS还是普通的Seq2Seq架构,分别用Bert类似的Transformer模型来做encoder和decoder,它的主要贡献就是提供了一种Seq2Seq思想的预训练方案;真正有意思的是UNILM,它提供了一种很优雅的方式,能够让我们直接用单个Bert模型就可以做Seq2Seq任务,而不用区分encoder和decoder。而实现这一点几乎不费吹灰之力——只需要一个特别的Mask。
UNILM-Bert与Seq2Seq结合
最新推荐文章于 2025-08-14 00:30:00 发布
本文探讨了微软的两项重要工作MASS和UNILM,前者通过Transformer架构进行Seq2Seq预训练,后者则以Bert为单一模型实现Seq2Seq任务,重点在于UNILM的mask技术。
3830

被折叠的 条评论
为什么被折叠?



