Encoder&Decoder 结构—BART：文本生成与恢复的利器

最新推荐文章于 2025-06-01 09:00:13 发布

原创最新推荐文章于 2025-06-01 09:00:13 发布 · 1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉 #深度学习 #自然语言处理

EncoderDecoder结构系列专栏收录该内容

4 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

Encoder&Decoder 结构—BART：文本生成与恢复的利器

1. 引言

BART（Bidirectional and Auto-Regressive Transformers） 是 Facebook AI 研究团队提出的一种 Encoder-Decoder 结构的 NLP 模型。BART 结合了 BERT 和 GPT 的优势，既能进行 文本理解，也能 生成文本，在文本摘要、翻译、文本修复等任务上表现优异。

2. BART 简介

BART 论文 “Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension” 提出了 去噪自编码器（Denoising Autoencoder） 作为预训练任务，即：

对输入文本进行扰动（如随机删除、打乱顺序、替换等）。
让模型恢复原始文本，从而学习强大的文本表示能力。
Encoder-Decoder 结构 结合了 BERT（双向编码）和 GPT（自回归解码）的优势。

3. BART 关键技术

3.1 预训练任务：去噪自编码器

BART 在预训练阶段 对输入文本添加噪声，然后让模型 恢复原始文本。常见的扰动方式包括：

Token Masking（掩码）：随机掩盖部分单词（类似于 BERT）。
Token Deletion（删除）：直接移除某些单词，使模型无法恢复原始长度。
Sentence Permutation（句子打乱）：随机打乱句子顺序。
Text Infilling（文本填充）：用特殊符号 <mask> 代替一部分文本，使其学会补全内容。
Document Rotation（文档旋转）：随机调整文本的开头位置，使模型更健壮。

3.2 Encoder-Decoder 结构

BART 采用 Transformer 的 Encoder-Decoder 结构：

Encoder（编码器）：处理损坏的文本，提取语义信息。
Decoder（解码器）：根据编码信息 自回归生成 原始文本。

BART 的 Decoder 类似于 GPT，可以逐步预测下一个单词，使其具备强大的 生成能力。

3.3 Fine-tuning（微调）

BART 预训练完成后，可以微调到多个 NLP 任务，包括：

文本摘要（Summarization）
机器翻译（Machine Translation）
文本生成（Text Generation）
问答（Question Answering, QA）
文本修复（Text Infilling）

4. BART 代码示例

我们可以使用 Hugging Face transformers 库来加载 BART 进行文本生成。

from transformers import BartTokenizer, BartForConditionalGeneration

# 加载 BART 模型和分词器
tokenizer = BartTokenizer.from_pretrained("facebook/bart-large")
model = BartForConditionalGeneration.from_pretrained("facebook/bart-large")

# 任务示例：文本摘要
input_text = "The article discusses the effects of climate change..."
input_ids = tokenizer(input_text, return_tensors="pt").input_ids

# 生成摘要
output_ids = model.generate(input_ids, max_length=50)
summary = tokenizer.decode(output_ids[0], skip_special_tokens=True)
print("生成的摘要:", summary)

5. BART 与 BERT、GPT、T5 对比

特性	BERT	GPT	BART	T5
模型结构	Encoder-only	Decoder-only	Encoder-Decoder	Encoder-Decoder
训练目标	MLM（掩码语言模型）	自回归语言模型	Denoising Autoencoder	Span Corruption
适用任务	分类、NER、QA	生成任务	生成、翻译、摘要、填空	生成、翻译、摘要、QA
生成能力	无	强	强	强
训练数据	Wikipedia + Books	WebText	BooksCorpus + Wikipedia	C4