【大语言模型——Day12】

最新推荐文章于 2025-10-21 10:47:37 发布

原创

最新推荐文章于 2025-10-21 10:47:37 发布 · 1k 阅读

·

29

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语言模型 #人工智能 #自然语言处理

【大语言模型——Day12】

提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

【大语言模型——Day12】
认识NLP
RNN介绍
LSTM

认识NLP

什么是NLP

NLP（Natural Language Processing），即“自然语言处理”，主要研究使用计算机来处理、理解及运用人类语言的各种理论和方法，属于人工智能的一个重要研究方向。

简单来说，NLP就是如何让计算机理解人类语言。

NLP的主要研究方向

NLP是一个庞大的技术体系，研究方向主要包括机器翻译、信息检索、文档分类、问答系统、自动摘要、文本挖掘、知识图谱、语音识别、语音合成等。

相较于CNN重点应用于计算机视觉领域，RNN则更多地应用于NLP方向。

词汇表征

什么是词汇表征

在NLP中，最细粒度的表示就是词语，但是计算机并不能直接识别词语，需要将词语转化为计算机可识别的数值形式，这种对词语的转化和表征就是“词汇表征”。

词汇表征的种类

one-hot编码

缺点：维数灾难、不能很好地获取词汇间的相似性

词嵌入(Word Embedding)

将词汇表中的每个单词表示为一个合理的普通向量，word2vec是典型的词嵌入技术

word2vec

word2vec介绍

word2vec是一种基于神经网络的词嵌入技术，通过训练神经网络得到一个关于输入X和输出Y之间的语言模型，获取训练好的神经网络权重，这个权重是用来对输入词汇X进行向量化表示的。

word2vec的两种模型

CBOW模型

CBOW（Continuous Bag-of-Words Model），即“连续词袋模型”，其应用场景是根据上下文预测中间词，输入X是每个词汇的one-hot向量，输出Y为给定词汇表中每个词作为目标词的概率。

Skip-gram模型

也称为"跳字模型"，应用场景是根据中间词预测上下文词，所以输入X为任意单词，输出Y为给定词汇表中每个词作为上下文词的概率。

全连接神经网络

全连接神经网络

全连接神经网络是一种连接方式较为简单的人工神经网络结构，某一层的任意一个节点，都和上一层所有节点相连接。

感知器工作机制

感知器即单层神经网络，也即"人工神经元"，是组成神经网络的最小单元

神经网络的激活函数

在神经网络中可以引入非线性激活函数，这样就可以使得神经网络可以对数据进行非线性变换，解决线性模型的表达能力不足的问题。

常见的激活函数

Sigmoid激活函数

$\Large y=\frac{1}{1+e^{-x}}$

Relu激活函数

$\Large y=max(0,x)$

tanh激活函数

$\Large y=\frac{e^x-e^{-x}}{e^x+e^{-x}}=\frac{1-e^{-2x}}{1+e^{-2x}}$

Softmax激活函数

$\Large p_l=\frac{e^{z_l}}{\sum_{j=1}^ke^{z_j}}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。