语言模型（序列模型）

原创

于 2024-12-12 20:45:54 发布 · 1.3k 阅读

·

31

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语言模型 #人工智能 #自然语言处理

终于快要毕业了，乘着还在还在研究室，把最后一章sequence模型也学完吧。

Sequence Model

一：基础知识
- 1：符号的定义
- 2：词典(Vocabulary) 与编码(Encoding)
二：RNN(Recurrent Neural Networks) 循环神经网络
三：Language Model(LM) 语言模型
四：Sampling Novel Sequences 采样新序列
五：Vanishing Gradient (梯度消失) & (Exploding Gradient 梯度爆炸)
六：Gated Recurrent Unit(GRU) : 门控循环单元. 一种改进梯度消失的方法。
七：Long Short-Term Memory(LSTM) : 长短期记忆
- 1：模型架构
- 2：公式

一：基础知识

1：符号的定义

$X$ ：表示是一组输入的序列，也就是一段话，类似：

$X =$ “Cats average 15 hours of sleep a day.”
如果任务需要处理变长序列,则会用 <EOS> 标记序列结束
$X =$ “Cats average 15 hours of sleep a day. <EOS>”

$Y$ ：标签序列

$T ：$ 时间序列的总长度，也就是总时间步数

一般用到的是很多个 $t$ 来表示某一个时刻。 $x^{<1>}$ … $x^{<t>}$
在词类的任务中 (word-level classification) $x^{<1>}=$ “Cast”、 $x^{<2>}=$ “average”…
在字母的任务中(character-level processing) $x^{<1>}=$ “C”、 $x^{<2>}=$ “a”…

除此之外，仍然用 $i$ 表示每一个单独的样本

$x^{(i)<t>}:$ 第 $i$ 个样本的第 $t$ 个词.

$T_x^{(i)}$ : 第 $i$ 个序列的长度.

2：词典(Vocabulary) 与编码(Encoding)

词典是一个映射关系，将数据中的每个唯一单词或字符分配一个唯一的索引。
One-hot 编码将每个类别或字符表示为一个长度为词典长度的二进制向量。

如果在输入的序列 $X$ 中遇到一个词 $x^{<1>}$ 并且该词存在于一个词典 V={‘a’,‘ab’,‘abc’…‘zulu’}中,

使用One-hot对 ‘a’ 进行编码，则是[1,0,0,…,0]. 对 ‘zulu’ 进行编码则是[0,0,0,…,1].

如果一个单词、字符或子词不在词典中，通常会将其标记为 unknown word（未知词，简称 UNK）

并使用特殊符号 <UNK> 来表示。

二：RNN(Recurrent Neural Networks) 循环神经网络

1：模型架构

在这里插入图片描述
其中，权重矩阵 $W_{ax}$ 、 $W_{aa}$ 、 $W_{ya}$ 的命名顺序是 输出-输入

为什么？

因为矩阵乘法的维度规则就是 矩阵A(输出维度\隐藏维度，输入维度) × 矩阵B(输出维度\隐藏维度，输入维度)

2：公式

$a^{<t>}=g(w_{aa}a^{<t-1>}+w_{ax}x^{<t>}+ba)$
其中 $w_{aa}$ 和 $w_{ax}$ 可以堆积为 $w_{aa}:w_{ax}]=w_{a}$

$a^{<t>}=g(w_{a}[a^{<t-1>}, x^{<t>}]+ba)$
$\hat y^{<t>}=g(w_{ya}a^{<t>}+by)$

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。