Day15下 - Seq2Seq架构

Seq2Seq(Sequence-to-Sequence)架构是一种用于处理序列数据的深度学习模型,它广泛应用于自然语言处理(NLP)任务中,如机器翻译、文本摘要、对话系统等。

Seq2Seq架构算是大模型的鼻祖,该结构的思想是Encoder to Decoder(编解码器原理),将一个输入序列映射到另一个输出序列,其中输入和输出序列的长度可以不同。

Seq2Seq 架构通常由两个主要组件组成:

  1. 编码器(Encoder):

    • 编码器负责接收输入序列,并将其转换为一个固定长度的上下文向量(context vector),也称为“思想向量”(thought vector)。这个向量应该能够捕捉到输入序列中的所有相关信息。
    • 编码器通常是基于循环神经网络(RNN)、长短期记忆网络(LSTM)或门控循环单元(GRU)构建的,因为这些类型的网络擅长处理序列数据,可以记住序列中的长期依赖关系。
  2. 解码器(Decoder):

    • 解码器的任务是从编码器生成的上下文向量中解码出目标序列。它以逐个元素的方式生成输出序列,每次生成一个元素,并使用该元素作为下一个时间步的输入。
    • 与编码器类似,解码器也可以基于 RNN、LSTM 或 GRU 实现。解码器在生成每个输出时,会考虑到之前的输出以及编码器提供的上下文信息。

Encoder to Decoder(编解码器原理)

  • 编码器 - 解码器
  • Encoder - Decoder
  • RNN - RNN
  • Seq2Seq
  • RNN2RNN:进来一句话,出来一句话
  • CNN2RNN:看图说话

Seq2Seq

  • 输入:一个句子
  • 输出:一个句子
  • Seq编码器:把
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值