BART: Bidirectional and Auto-Regressive Transformers

最新推荐文章于 2025-05-19 21:50:27 发布

AI强仔

最新推荐文章于 2025-05-19 21:50:27 发布

阅读量1.7k

点赞数 2

分类专栏： NLP transformer 人工智能

人工智能同时被 3 个专栏收录

151 篇文章

订阅专栏

NLP

51 篇文章

订阅专栏

transformer

33 篇文章

订阅专栏

BART是结合BERT和GPT特性的双向序列到序列模型，用于自然语言生成、翻译和理解。它通过学习修复破坏文本来训练，包含双向encoder和自回归decoder。相比BERT，BART的decoder有额外的交叉注意力层，并且在预训练中采用多种文本噪声方式。在多项任务上，BART展现出优秀性能，特别是在生成任务上达到新的最佳状态。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 简介

BART: Bidirectional and Auto-Regressive Transformers.

本文根据2019年《BART: Denoising Sequence-to-Sequence Pre-training for Natural
Language Generation, Translation, and Comprehension》翻译总结。

BERT是双向encoder，GPT是left-to-right decoder。BART可以说是既有encoder，又有decoder，即BERT和GPT结合体。如下图：
在这里插入图片描述

BART输入的损坏文本可以使用任意噪声函数，然后模型来学习回复原始文本。所以BART是一个去噪autoencoder。
BART是一个sequence-to-sequence model，包括双向encoder（接受损坏的文本）和left-to-right 自回归（autoregressive）decoder。

BART和BERT的差异是：（1）decoder的每一层会额外的对encoder的最后隐藏层进行cross-attention；（2）BERT在word预测前使用了feed-forward network，而BART没有使用。总体来说，BART比BERT多10%左右的参数。

BART在Discriminative Tasks上，达到了RoBERTa类似的表现；在text generation tasks.取得了new state-of-the-art结果。