恐龙岛--构建字符级语言模型

最新推荐文章于 2024-03-15 11:30:48 发布

冲动老少年

最新推荐文章于 2024-03-15 11:30:48 发布

阅读量1.4k

点赞数

分类专栏：吴恩达《深度学习》文章标签： rnn 字符模型吴恩达

本文链接：https://blog.youkuaiyun.com/u013093426/article/details/82315692

版权

本文基于吴恩达的深度学习课程，介绍如何使用RNN构建字符级语言模型，生成新的恐龙名字。通过数据预处理、梯度截断、采样模块的实现，以及梯度下降训练模型，最终产生独特的恐龙名称。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是基于吴恩达《深度学习》第五周第一课后练习题所做。

0.背景简介

本练习题中，达叔提出了一个有趣的问题，让我们在现有的已知恐龙名称的基础上创造新的恐龙，而且如果所创造的新品恐龙和其外貌不相称的话就会被消灭。主要思路是利用现有的恐龙数据集，构建字符级的语言模型来产生新的名字，算法会学习不同的名字特征，然后产生新的名字。

通过本练习可以实现如下4个目标：

（1）如何使用RNN存储可处理的文本数据；

（2）如何通过在每一时间步采集预测值并将其传递到下一个RNN单元，以实现数据同步；

（3）如何构建一个字符级的文本生成器来构建RNN；

（4）裁剪梯度值的重要性。

导入所需的第三方库，其中所用辅助程序可点击此处下载。

import numpy as np
from utils import *
import random

1.问题描述

1.1数据集及预处理

从文件中读取恐龙名字数据集，创建一个统一字符列表，计算数据集和字典的大小。

data = open('datasets\dinos.txt').read()
data = data.lower()
chars = list(set(data))
data_size, vocab_size = len(data), len(chars)
print("There are %d total characters and %d unique characters in your data."%(data_size, vocab_size))

There are 19909 total characters and 27 unique characters in your data.

从打印的输出我们可以看到统一字符一个是27个，这其中包括a-z共26个字符和“\n”，“\n”可以看做是句子结束符号“EOS”。接下来我们创建两个字典，使统一字符和指标index对于，以便我们能够将softmax层输出的概率分布与字符对应起来。

char_to_ix = {ch : i for i,ch in enumerate(sorted(chars))}
ix_to_char = {i : ch for i,ch in enumerate(sorted(chars))}
print(ix_to_char)

{0: '\n', 1: 'a', 2: 'b', 3: 'c', 4: 'd', 5: 'e', 6: 'f', 7: 'g', 8: 'h', 9: 'i', 10: 'j', 11: 'k', 12: 'l', 13: 'm', 14: 'n', 15: 'o', 16: 'p', 17: 'q', 18: 'r', 19: 's', 20: 't', 21: 'u', 22: 'v', 23: 'w', 24: 'x', 25: 'y', 26: 'z'}

1.2模型概览

我们将要建立模型结构如下：

（1）初始化参数；

（2）运行优化循环：

前向传播计算loss
反向传播计算loss的梯度
截断梯度以避免梯度爆炸
使用梯度下降更新参数

（3）返回学习到的参数；

在RNN的每一个时间步中，模型会根据上一步的字符推测下一步的字符是什么，然后将预测的是y<t> _hat作为下一步的输入。

2.构建2个重要模块

本小节主要构建截断梯度模块和采样模块。

2.1在优化循环中截取梯度

我们下面将编写一个clip函数实现截取梯度的功能，实现clip的方法很多，在此我们此采用一种简单的按元素处理的方案，对于梯度向量的元素，将其裁剪成[-N, N]的区间范围，假设N=10，当有元素大于10时将这个元素设置成10；同理，当某元素小于-10时将其设置成-10。截取之后的梯度趋势将如下图所示。

def clip(gradients, maxValue):

    dWaa, dWax, dWya, db, dby = gradients['dWaa'], gradients['dWax'], gradients['dWya'], \
                                gradients['db'], gradients['dby']

    for gradiet in [dWaa, dWax, dWya, db, dby]:
        np.clip(gradiet, -maxValue, maxValue, out=gradiet)


    gradiets = {"dWaa": dWaa, "dWax": dWax, "dWya": dWya, "db": db, "dby": dby}


    return gradiets

np.random.seed(3)
dWax = np.random.randn(5,3)*10
dWaa = np.random.randn(5,5)*10
dWya = np.random.randn(2,5)*10
db = np.random.randn(5,1)*10
dby = np.random.randn(2,1)*10
gradients = {"dWax": dWax, "dWaa": dWaa, "dWya": dWya, "db": db, "dby": dby}
gradients = clip(gradients, 10)
print("gradients[\"dWaa\"][1][2] =", gradients["dWaa"][1][2])
print("gradients[\"dWax\"][3][1] =", gradients["dWax"][3][1])
print("gradients[\"dWya\"][1][2] =", gradients["dWya"][1][2])
print("gradients[\"db\"][4] =", gradients["db"][4])
print("gradients[\"dby\"][1] =", gradients["dby"][1])

最低0.47元/天解锁文章