NLP&深度学习 DAY5：Sequence-to-sequence 模型详解

feifeikon

已于 2025-01-31 22:31:30 修改

阅读量932

点赞数 6

文章标签：自然语言处理深度学习人工智能

于 2025-01-30 20:43:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/feifeikon/article/details/145400651

版权

Seq2Seq（Sequence-to-Sequence）模型是一种用于处理输入和输出均为序列任务的深度学习模型。它最初被设计用于机器翻译，但后来广泛应用于其他任务，如文本摘要、对话系统、语音识别、问答系统等。

核心思想

Seq2Seq 模型的目标是将一个序列（如一句话）转换为另一个序列，例如：

输入：英文句子 "Hello, how are you?"
输出：法语句子 "Bonjour, comment ça va ?"

模型结构

Seq2Seq 模型通常由两部分组成：

编码器（Encoder）：
- 将输入序列（如源语言句子）编码为一个固定长度的上下文向量（Context Vector），用于捕捉输入序列的语义信息。
- 常用循环神经网络（RNN、LSTM、GRU）或 Transformer 作为编码器。
解码器（Decoder）：
- 基于编码器生成的上下文向量，逐步生成输出序列（如目标语言句子）。
- 解码器通常也是一个循环神经网络（或 Transformer），每一步生成一个输出词，直到生成结束符（如 <EOS>）。

首先，来简单介绍下RNN（循环神经网络）结构：

1. RNN 简介

RNN结构

RNN中，每个单元接受两个输入，一个是当前时间步输入的信息 $X_{t}$ ，另一个是上一个单元的隐藏层状态 $H_{t-1}$ 。为什么这种结构的RNN适合用于做文本等序列型数据的任务，主要是因为隐藏状态的存在使得模型具有记忆性。针对不同的任务，根据输入和输出的数量，通常对RNN结构进行调整。

RNN的常见几种结构

1.1 N to N

该模型处理的一般是输入和输出序列长度相等的任务，如

词性标注
语言模型（Language Modeling）

1.2 1 to N

此类结构的输入长度为1，输出长度为N，一般又可以分为两种：一种是将输入只输入到第一个神经元，另一种将输入输入到所有神经元。

一般用于以下任务：

图像生成文字，一般输入 X 为图片，输出为一段图片描述性的文字；
输入音乐类别，生成对应的音乐
根据小说（新闻情感）类别，生成对应的文字

1.3 N to 1

和1 to N相反，一般常见任务有：

序列分类任务，如给定一段文本或语音序列，归类（情感分类，主题分类等）

2. Seq2Seq 模型

经过上面对几种RNN结构的分析，不难发现RNN结构大多对序列的长度比较局限，对于类似于机器翻译的任务，输入和输出长度并不对等，为N to M的结构，简单的RNN束手无策，因此便有了新的模型，Encoder-Decoder模型，也就是Seq2Seq模型。

模型一般由两部分组成：第一部分是Encoder部分，用于对输入的N长度的序列进行表征；第二部分是Decoder部分，用于将Encoder提取出的表征建立起到输出的M长度序列的映射。

2.1 编码器 Encoder

Encoder部分一般使用了普通RNN的结构。其将一个序列表征为一个定长的上下文向量c，计算方式有多种，如下：

2.2 解码器 Decoder

相对于编码器而言，解码器的结构更多，下面介绍三种：

第一种

这种结构直接Encoder得到的上下文向量作为RNN的初始隐藏状态输入到RNN结构中，后续单元不接受 c 的输入，计算公式如下：

隐藏状态的更新&

最低0.47元/天解锁文章

博客等级

码龄4年

163
原创

1515
点赞

1331
收藏

1165
粉丝

关注

私信

热门文章

最新评论

代码训练营第二天
优快云-Ada助手: 非常棒的博客！看到你不断学习和思考的态度，我非常受鼓舞。关于这个题目，我想补充一些相关的知识，比如关于动态规划的思想和技巧，以及如何更好地理解二维矩阵。希望这些能对你的学习和成长有所帮助！继续加油，期待你的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
二刷数组总结
优快云-Ada助手: 恭喜您又写了一篇优秀的博客！通过您的总结，我也学到了很多关于数组的知识。希望您能继续保持创作的热情，为我们带来更多精彩的内容。下一步，建议您可以尝试深入探讨数组在实际应用中的使用，或者结合其他数据结构进行比较分析，让读者更加深入地了解数组的优缺点。期待您的下一篇作品！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
代码训练营第三天
优快云-Ada助手: 恭喜您写下了第四篇博客，这样的努力是值得赞赏的。在您的博客中，您描述了代码训练营的第三天，这让读者更好地了解了您的学习进程。在接下来的创作中，我建议您可以尝试分享一些自己的实践经验，或者是对所学知识的一些深入探讨。期待您的下一篇博客！优快云会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
代码训练营第6天
优快云-Ada助手: 恭喜您完成了代码训练营第6天的学习并分享了您的心得体会。持续不断地创作和分享对于个人的成长和学习来说是非常重要的，希望您能够继续坚持下去。同时，建议您在下一篇博客中可以围绕学习中遇到的问题和解决方案进行探讨和分享，这样能够更好地帮助到其他读者，也能够锻炼自己的表达和思考能力。期待您的下一篇博客！优快云会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
day7 代码训练营主要是哈希表和双指针法和几数之和问题
优快云-Ada助手: 非常棒的博客！恭喜你完成了代码训练营的第七天任务，并成功掌握了哈希表和双指针法以及几数之和问题。你的学习态度值得我们学习和借鉴。接下来，我建议你可以继续深入了解这些算法的应用场景和优化方法，这样能够更好地提高你的编程技能。期待你的下一篇博客！优快云会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。