深入理解循环神经网络：NLP领域的基石，大模型学习的必经之路！

原创于 2025-12-08 11:57:08 发布 · 294 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语言模型 #人工智能 #大模型学习 #大模型入门 #AI大模型 #自然语言处理 #NLP

前言

有了上文的铺垫，本节进入循环神经网络(Recurrent Neural Network)。卷积神经网络主要解决计算机视觉领域的问题，而循环神经网络主要解决自然语言处理(NLP)领域的问题。

自然语言应该是人工智能中最难的，首先输入就是不确定的，有长有短；另外同一个词语，在不同位置，在不同的上下文，语义可能天差地别。

想要处理自然语言，这就要求神经网络能够处理变长的输入，另外还得有“记忆”能力，从记忆的上下文中理解语义。

1.循环神经网络

循环神经网络最核心的就是循环，隐藏层与输入层之间的循环。

我们设定一个三层的神经网络，输入是token的嵌入向量，那么可以这样大致的描画循环神经网络的处理流程：

每次输入一个token的嵌入向量，这样就能应对任意长度的序列。

隐藏层的输出又称作隐状态，基于该机制后面的词就能利用前面的信息进行计算，也就是有了理解上下文的能力。

看似很完美，实则有个致命的问题：隐状态传递的是一种短期记忆(Short-Term Memory)，距离比较远的两个token很难产生关系。

1.1 LSTM

LSTM(Long Short-Term Memory)长短期记忆网络，就是针对循环神经网络只有短记忆而进行的缝缝补补。

这个缝缝补补既没有革命性的改变，而且还特别晦涩难懂。

记忆细胞状态是 LSTM 的脊柱，一条贯穿时间的水平线，它的目的是在很长一段时间内稳定地携带信息，让早期的信息也能影响到后期的决策。

记忆细胞状态这个“长期记忆”的维护工作有遗忘门和输入门完成，直观理解就是首先通过遗忘门扔掉应该遗忘的信息，然后通过输入门加上应该记住的新的信息。

新的长期记忆 = 旧的长期记忆 × 遗忘门的决定 + 输入门的决定

回想一下之前介绍激活函数 sigmoid 的内容，它的输出是0到1的区间，通过乘法操作可以实现保留趋向于1的信息，扔掉趋向于0的信息。

输出门的作用就是在长期记忆的基础上生成下一个短期记忆。

由于 LSTM 太复杂了，而且训练成本更高，所以又缝缝补补出了个简化版：GRU(Gated Recurrent Unit)门控循环单元[1]，效果不如 LSTM，这里就不详细介绍了。

2 注意力机制

在 Seq2Seq[2] 模型中，注意力机制被引入循环神经网络，用于提高长句的翻译质量。

此时注意力机制还仅仅是个配角，谁能想到2017[3]年之后成为了绝对的主角！

Transformer 是下一节的主题，本节我们来回顾一下 encoder-decoder 翻译中的注意力机制。

使用循环神经网络进行翻译工作，一般流程如上所示。对于长句可以用 LSTM 优化效果，但是聪明的研究人员通过类比人类的翻译行为，提出了另一种革命性的优化方式，首先扪心自问我们自己是如何进行长句的翻译呢，我们不是一次性记住整个句子（编码器），而是会在翻译的过程（解码器）中时不时的把注意力放在原句的关联部分，然后逐步进行翻译。

看起来很玄妙，实际实现很简单，就是将编码器每一步生成的隐状态的值进行加权求和生成一个注意力向量。

在解码器中，拼接的不再是简单的隐状态，而是注意力向量。基于这个注意力向量，模型能够关联原句中需要关注的部分。

3.如何学习AI大模型？

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

这份完整版的大模型 AI 学习和面试资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

请添加图片描述
第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。