Seq2Seq模型

最新推荐文章于 2025-04-03 10:22:20 发布

东石有海

最新推荐文章于 2025-04-03 10:22:20 发布

阅读量6.5k

点赞数

分类专栏：深度学习 NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_42835351/article/details/119771935

版权

Seq2Seq模型是Google开发的经典NLP模型，常用于机器翻译、人机对话等场景。该模型由编码器和解码器组成，其中编码器将输入序列转化为隐藏向量，解码器则根据此向量生成输出序列。在训练过程中，encoder的最后一个状态传递给decoder，通过不断优化损失函数更新模型参数。双向LSTM可以改进模型的记忆能力，但decoder必须保持单向以确保序列生成的顺序。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

seq2seq(sequence to sequence)模型是NLP中的一个经典模型。最初由Google开发，并用于机器翻译。它基于RNN网络模型构建，能够支持且不限于的应用包括：语言翻译，人机对话，内容生成等。Seq2Seq，就如字面意思，输入一个序列，输出另一个序列。这种结构最重要的地方在于输入序列和输出序列的长度是可变的。

Seq2Seq 属于 Encoder-Decoder 的大范畴
Seq2Seq 更强调目的，Encoder-Decoder 更强调方法

seq2seq模型结构和特点

seq2seq指的是从序列A到序列B的一种转换。主要是一个由编码器(encoder)和一个解码器(decoder)组成的网络。编码器将输入项转换为包含其特征的相应隐藏向量。解码器反转该过程，将向量转换为输出项，解码器每次都会使用前一个输出作为其输入。

搭建encoder+decoder训练模型

encoder模型在进行训练后，需要把自身的state导出。作为decoder模型的输入，所以需要定制LSTM的两个参数：return_state和return_sequences

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。