NLP高频面试题(六)——decoder-only、encoder-only和encoder-decoder的区别与联系

一、基本概念与代表模型

1. Encoder-only 架构

Encoder-only 架构最具代表性的模型是 BERT。BERT 使用 masked language modeling(MLM)进行预训练,即随机遮蔽部分输入词汇,让模型预测被遮蔽的词汇。由于这种架构能够同时看到输入序列的上下文信息,BERT 非常擅长文本理解)任务,如文本分类、命名实体识别等。

2. Decoder-only 架构

Decoder-only 架构的经典代表是 GPT 系列模型,如 GPT-3 和 GPT-4。GPT 模型使用 next token prediction 进行训练,在生成某个词的表征时,仅能看到该词及其之前的所有信息,而不能看到后续信息。这种单向注意力机制称为 causal mask。

3. Encoder-decoder 架构

Encoder-decoder 架构最早由 Transformer 提出,用于seq2seq任务,代表模型有 T5 和 BART。Encoder 部分处理输入序列并抽取特征,Decoder 部分根据 Encoder 提供的特征生成目标序列,典型应用是翻译和摘要生成。

二、架构对比与分析

1. 信息关注方向的不同

  • Encoder-only 架构使用的是
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Chaos_Wang_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值