特性 | Encoder-Decoder | Encoder Only | Decoder Only |
---|---|---|---|
架构区别 | 编码器将输入序列(如源语言句子)转换为中间表示;解码器根据中间表示生成目标序列(如目标语言翻译)。 | 专注于理解输入文本,通过自注意力机制捕捉输入的全局上下文信息。 | 通过自回归方式(从左到右生成)或自注意力机制生成文本,同时处理输入和输出的依赖关系。 |
优势 | -灵活处理输入输出长度不一致的任务 -编码器与解码器可独立优化,适合需要明确输入-输出映射的场景 | -深度理解语义,适合需要全局上下文分析的任务。 -训练效率高,适合预训练任务。 | - 强大的生成能力,适合需要创造性输出的任务。 - 自注意力机制可捕捉长距离依赖,生成连贯文本。 |
依赖范围 | 依赖中间表示 | 仅依赖输入序列的全局上下文 | 生成内容依赖前部分给予和已生成内容 |
掩码机制 | Encoder随机掩码,Decoder遮掩后部分 | 随机遮盖 | 遮盖后部分进行自回归 |
适配任务 | 适合序列到序列任务如:机器翻译、文本摘要、结构化数据生成 | 适合深度语义理解任务如:文本分类、问答系统、预训练语言模型 | 擅长开放域文本生成如:对话系统、代码生成、开放式问答 |
推理速度 | 较慢 | 快 | 慢 |
参数效率 | 参数量较大 | 中等 | 可扩展至极大 |
相关模型 | Transformer、T5、BART | BERT、RoBERTa | GPT系列、LLaMA、Qwen |
Encoder-Decoder、Encoder only、Decoder only
于 2025-03-25 09:33:31 首次发布